使用pandas进行Python数据清洗和分析实例-蒲公英云

使用pandas进行Python数据清洗和分析实例

下面是一个使用Pandas进行数据清洗和分析的实例。我们将处理一个包含缺失值和重复值的数据集。

首先，我们需要导入Pandas库：

import pandas as pd

接下来，假设我们有一个CSV文件，叫做’data.csv’，里面有一些原始数据：

Name, Age, Occupation, Income
John, 30, Engineer, $5000
Jane, 28, Doctor, $7500
John, 32, Lawyer, $9000

我们将进行以下清洗和分析操作：

导入数据
查看数据的前几行
检查是否有重复值
处理缺失值，这里假设我们用平均值填充
分析年龄分布
根据职业对收入进行分组并计算平均值

下面是完成这些操作的完整代码：

# 1. 导入数据
data = pd.read_csv('data.csv')
# 2. 查看数据的前几行
print(data.head())
# 3. 检查是否有重复值
duplicate_rows = data.duplicated()
if duplicate_rows.any():
    print("Duplicate rows found:")
    print(duplicate_rows)
else:
    print("No duplicate rows found.")
# 4. 处理缺失值，这里假设我们用平均值填充
data.fillna(data.mean(), inplace=True)
# 5. 分析年龄分布
age_distribution = data['Age'].value_counts()
print("\nAge Distribution:")
print(age_distribution)
# 6. 根据职业对收入进行分组并计算平均值
income_byOccupation = data.groupby('Occupation')['Income'].mean()
print("\nAverage Income by Occupation:")
print(income_byOccupation)