使用Pandas进行数据清洗:案例展示

原创 约定不等于承诺〃 2025-02-23 19:18 29阅读 0赞

在Python中,Pandas是一个强大的数据分析库。以下是使用Pandas进行数据清洗的一个案例:

假设我们有一个包含缺失值的CSV文件,如下所示:

  1. Name, Age, Salary
  2. John, 30, 5000
  3. Jane, ?, 4000
  4. Mike, 45, ?
  1. 导入Pandas库
    首先,我们需要导入Pandas库并读取数据。
  1. import pandas as pd
  2. data = pd.read_csv('file.csv') # 替换'file.csv'为你的文件名
  1. 检查缺失值
    使用isnull()sum()方法可以快速查看数据中哪些列存在缺失值,以及缺失的总数量。
  1. missing_values = data.isnull().sum()
  2. print('Column\tMissing Values')
  3. for column, count in missing_values.items():
  4. print(f'{column}\t{count}')
  1. 处理缺失值
    根据数据类型和实际情况,可以采取以下方法填充缺失值:
  • 删除含有缺失值的行或列
    如果某列数据对分析至关重要且缺失值较多,可以选择删除含有该列缺失值的行。
  1. # 删除含有Age列缺失值的行
  2. data.dropna(subset='Age'), inplace=True
  • 使用平均值、中位数、众数等填充数值型列
    对于数值型列,可以使用列的均值、中位数或众数来填补。
  1. # 使用Age列的均值填充缺失值
  2. data['Age'].fillna(data['Age'].mean(), inplace=True)
  • 使用特定值填充分类列
    对于分类列,可以选择一个最常见的值来填充。
  1. # 使用Name列最常见的值'John'填充
  2. data['Name'].fillna('John', inplace=True)

完成上述步骤后,你的数据应该已经清洗干净了。

文章版权声明:注明蒲公英云原创文章,转载或复制请以超链接形式并注明出处。

发表评论

表情:
评论列表 (有 0 条评论,29人围观)

还没有评论,来说两句吧...

相关阅读