什么是数据清洗?

  1. 包含四大情况:
    • 缺失值处理
    • 重复值处理
    • 异常值处理
    • 字符串处理

缺失值

  1. 缺失原因:
    • 由于数据未维护、服务器或存储故障等造成了有些数据暂时无法获取,一部分属性值空缺。
    • 由于人为因素缺失,如未保存。
    • 有些对象对于某个属性不可用,如对于未婚者的配偶姓名。
    • 有些信息获取代价太大,从而未获取,如爬取数据质量差,加密数据或收费数据。
  2. 产生问题:
    • 系统丢失了大量有用的信息——完整样本数减少。
    • 系统不确定性显著,系统中确定性成分更难把握——有效信息减少,系统平衡性受影响。
    • 包含空值的数据会使分析过程陷入混乱,导致不可靠的输出——有些算法或统计检验要求数据没有缺失。
  3. 如何解决?
    • 删除缺失值:删除记录 —— 把一行删除,如果相对于样本量很少的话;删除属性 —— 80%原则,某一列确实了80%及以上的数据,删除。
    • 插值填补:均值,中位数,众数,特殊值(-1);前向后向填充,填的和前面/后面一样;机器学习算法填补。
    • 不处理:用不到的属性;算法可以接受缺失值。

重复值

  1. 出现原因与处理方法
    • 原因:爬取数据时,可能会重复爬取,获取重复数据;人为录入内容,可能重复录入。
    • 处理方法:剔除即可

异常值

  1. 判别方法:
    • 物理判别;对客观事物的已有认识。如气温100°C。
    • 统计判别;给定置信概率和置信限。如气温35°C,对于三亚正常但对于漠河异常,要给出置信概率和置信限来判断是否去除。
  2. 判别原则:
    • 散点图 —— 点不在主要范围内。
    • 正态分布 —— 距离平均值>3σ √
    • 不服从正态分布 —— 根据N被标准差
    • 分位数判别 —— 上分位+1.5IQR、下分位-1.5IQR,设定上下界 √
    • 模型预测 —— 聚类、回归
  3. 处理:
    • 删除异常记录
    • 视同缺失值,用可能值填补。如中位数平均数众数、上下四分位、上下界。
      <center>异常值示意图
      异常值示意图
    • 覆盖法。将超出上下界的值都替换成上下界的值。
    • 不处理