Datawash1
什么是数据清洗?
- 包含四大情况:
- 缺失值处理
- 重复值处理
- 异常值处理
- 字符串处理
缺失值
- 缺失原因:
- 由于数据未维护、服务器或存储故障等造成了有些数据暂时无法获取,一部分属性值空缺。
- 由于人为因素缺失,如未保存。
- 有些对象对于某个属性不可用,如对于未婚者的配偶姓名。
- 有些信息获取代价太大,从而未获取,如爬取数据质量差,加密数据或收费数据。
- 产生问题:
- 系统丢失了大量有用的信息——完整样本数减少。
- 系统不确定性显著,系统中确定性成分更难把握——有效信息减少,系统平衡性受影响。
- 包含空值的数据会使分析过程陷入混乱,导致不可靠的输出——有些算法或统计检验要求数据没有缺失。
- 如何解决?
- 删除缺失值:删除记录 —— 把一行删除,如果相对于样本量很少的话;删除属性 —— 80%原则,某一列确实了80%及以上的数据,删除。
- 插值填补:均值,中位数,众数,特殊值(-1);前向后向填充,填的和前面/后面一样;机器学习算法填补。
- 不处理:用不到的属性;算法可以接受缺失值。
重复值
- 出现原因与处理方法
- 原因:爬取数据时,可能会重复爬取,获取重复数据;人为录入内容,可能重复录入。
- 处理方法:剔除即可
异常值
- 判别方法:
- 物理判别;对客观事物的已有认识。如气温100°C。
- 统计判别;给定置信概率和置信限。如气温35°C,对于三亚正常但对于漠河异常,要给出置信概率和置信限来判断是否去除。
- 判别原则:
- 散点图 —— 点不在主要范围内。
- 正态分布 —— 距离平均值>3σ √
- 不服从正态分布 —— 根据N被标准差
- 分位数判别 —— 上分位+1.5IQR、下分位-1.5IQR,设定上下界 √
- 模型预测 —— 聚类、回归
- 处理:
- 删除异常记录
- 视同缺失值,用可能值填补。如中位数平均数众数、上下四分位、上下界。
异常值示意图 - 覆盖法。将超出上下界的值都替换成上下界的值。
- 不处理