异常值 是指与数据集中其他观测值显著不同的数据点,它的“异常”是相对的,取决于你的数据和业务背景。

- 统计视角:偏离整体分布模式,可能由测量误差、录入错误或小概率事件产生。
- 业务视角:可能是“噪音”(需要处理),也可能是“信号”(需要重点研究),这是处理前必须厘清的关键点。
一个核心比喻:异常值就像海面上的浪花,有些只是微风引起的涟漪(噪音),有些则预示着海底的火山喷发或巨大的宝藏(关键信号)。
为什么要处理异常值?(影响)
异常值会对数据分析的许多环节产生巨大影响:
处理异常值的核心步骤(认知流程)
处理异常值不是一个简单的“删除”动作,而是一个决策流程:
graph TD
A[发现异常值] --> B{诊断成因};
B --> C[“确认为”<b>错误值</b>“<br>(如:输入错误、设备故障)”];
B --> D[“探索是否为”<b>真实异常/关键信号</b>“<br>(如:欺诈交易、特殊事件)”];
C --> E[“处理方法:<br>修正、删除或用缺失值替代”];
D --> F{基于业务目标决策};
F --> G[“目标:<b>寻找普适模式</b><br>(如:预测普通客户行为)”];
F --> H[“目标:<b>识别异常本身</b><br>(如:欺诈检测、故障预警)”];
G --> I[“处理方法:<br>在分析/建模时稳健处理或剔除”];
H --> J[“处理方法:<br>重点研究、建立专门模型”];
步骤1:发现与检测
- 可视化:箱线图、散点图、直方图、Q-Q图,这是最直观的方法。
- 统计方法:
- 机器学习方法:孤立森林、局部异常因子、DBSCAN聚类(将稀疏点视为异常)。
步骤2:诊断与理解(最关键的一步)
问自己:这个异常值是怎么产生的?
- 数据错误:录入错误(多打一个0)、传感器故障、单位错误(米写成英尺)。处理方式:纠正、删除或视为缺失值。
- 业务上的特殊事件:节日促销、系统故障、黑天鹅事件(如疫情)。处理方式:根据分析目标决定保留或分段处理。
- 固有的数据特性:超高净值客户、罕见疾病患者、欺诈交易。处理方式:这常常是分析的重点!不能简单删除。
步骤3:选择处理方法(没有银弹)
根据诊断结果和分析目标选择:
A. 保留
B. 修正或替换
- 场景:确认为错误,但有办法推断其合理值。
- 做法:
C. 删除
- 场景:确认为错误且无法修正,或明确知道它与当前分析目标无关(且占比很小)。
- 风险:可能丢失重要信息,破坏数据随机性,需谨慎。
不同业务场景的认知示例
-
电商销售分析:
- 异常值:一笔1元购买奢侈品的订单。
- 诊断:可能是“刷单”或“测试订单”。
- 处理:如果分析正常用户行为,则删除;如果分析反作弊,则这是核心样本。
-
- 异常值:深夜在异国的大额转账。
- 诊断:可能是欺诈交易的关键信号。
- 处理:必须保留,并作为风险模型最重要的特征。
-
产品质量控制:
- 异常值:生产线上某个零件的尺寸远超出规格。
- 诊断:可能是机器故障或原材料缺陷。
- 处理:删除该次测量(因为它是次品),并触发报警检查生产流程。
重要原则与误区
- 原则:
- 误区:
- 盲目删除所有异常值:可能丢失了数据中最有趣的部分。
- 不调查原因直接处理:这是最危险的。
- 认为有“最好”的方法:方法取决于数据和问题。
建立系统认知
处理异常值是一项 “数据外科手术” ,需要:
- 敏锐的检测(找到它)。
- 严谨的诊断(理解它:是噪声还是信号?)。
- 审慎的决策(处理它:目标是什么?)。
- 完整的记录(追溯它)。
最终目标不是让数据看起来“干净”,而是让数据能够更真实、有效地服务于你的分析目标和业务决策。
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。