Datawash1

发表于2025-03-22|更新于2025-03-22|辉夜の编程之路

|字数总计:612|阅读时长:1分钟|阅读量:

什么是数据清洗？

包含四大情况：
- 缺失值处理
- 重复值处理
- 异常值处理
- 字符串处理

缺失值

缺失原因：
- 由于数据未维护、服务器或存储故障等造成了有些数据暂时无法获取，一部分属性值空缺。
- 由于人为因素缺失，如未保存。
- 有些对象对于某个属性不可用，如对于未婚者的配偶姓名。
- 有些信息获取代价太大，从而未获取，如爬取数据质量差，加密数据或收费数据。
产生问题：
- 系统丢失了大量有用的信息——完整样本数减少。
- 系统不确定性显著，系统中确定性成分更难把握——有效信息减少，系统平衡性受影响。
- 包含空值的数据会使分析过程陷入混乱，导致不可靠的输出——有些算法或统计检验要求数据没有缺失。
如何解决？
- 删除缺失值：删除记录 —— 把一行删除，如果相对于样本量很少的话；删除属性 —— 80%原则，某一列确实了80%及以上的数据，删除。
- 插值填补：均值，中位数，众数，特殊值（-1）；前向后向填充，填的和前面/后面一样；机器学习算法填补。
- 不处理：用不到的属性；算法可以接受缺失值。

重复值

出现原因与处理方法
- 原因：爬取数据时，可能会重复爬取，获取重复数据；人为录入内容，可能重复录入。
- 处理方法：剔除即可

异常值

判别方法：
- 物理判别；对客观事物的已有认识。如气温100°C。
- 统计判别；给定置信概率和置信限。如气温35°C，对于三亚正常但对于漠河异常，要给出置信概率和置信限来判断是否去除。
判别原则：
- 散点图 —— 点不在主要范围内。
- 正态分布 —— 距离平均值＞3σ √
- 不服从正态分布 —— 根据N被标准差
- 分位数判别 —— 上分位+1.5IQR、下分位-1.5IQR，设定上下界 √
- 模型预测 —— 聚类、回归
处理：
- 删除异常记录
- 视同缺失值，用可能值填补。如中位数平均数众数、上下四分位、上下界。
  异常值示意图
- 覆盖法。将超出上下界的值都替换成上下界的值。
- 不处理

Datawash1

https://www.noctuna.cc/2025/03/22/Datawash1new/

作者

Noctuna

发布于

2025-03-22

更新于

2025-03-22

许可协议

CC BY-NC-SA 4.0

Python 编程数据清洗

相关推荐

数据库加载中