使用pandas进行Python数据清洗和分析实例
下面是一个使用Pandas进行数据清洗和分析的实例。我们将处理一个包含缺失值和重复值的数据集。
首先,我们需要导入Pandas库:
import pandas as pd
接下来,假设我们有一个CSV文件,叫做’data.csv’,里面有一些原始数据:
Name, Age, Occupation, Income
John, 30, Engineer, $5000
Jane, 28, Doctor, $7500
John, 32, Lawyer, $9000
我们将进行以下清洗和分析操作:
- 导入数据
- 查看数据的前几行
- 检查是否有重复值
- 处理缺失值,这里假设我们用平均值填充
- 分析年龄分布
- 根据职业对收入进行分组并计算平均值
下面是完成这些操作的完整代码:
# 1. 导入数据
data = pd.read_csv('data.csv')
# 2. 查看数据的前几行
print(data.head())
# 3. 检查是否有重复值
duplicate_rows = data.duplicated()
if duplicate_rows.any():
print("Duplicate rows found:")
print(duplicate_rows)
else:
print("No duplicate rows found.")
# 4. 处理缺失值,这里假设我们用平均值填充
data.fillna(data.mean(), inplace=True)
# 5. 分析年龄分布
age_distribution = data['Age'].value_counts()
print("\nAge Distribution:")
print(age_distribution)
# 6. 根据职业对收入进行分组并计算平均值
income_byOccupation = data.groupby('Occupation')['Income'].mean()
print("\nAverage Income by Occupation:")
print(income_byOccupation)
这段代码将完成上述数据清洗和分析任务。
还没有评论,来说两句吧...