什么是异常值(Outlier)?
在统计学中,异常值是指显著偏离数据集中其他观测值的数值。异常值可能源于测量误差、实验错误,也可能代表了真实的但极少数的极端情况。识别并决定如何处理异常值(是删除、修正还是保留)是数据清洗中的核心步骤。
常用的检测算法说明
- IQR (四分位距法):无需假设数据分布。它通过计算 Q1(第一四分位数)和 Q3(第三四分位数)的差值(即 IQR)。通常,任何小于
Q1 - 1.5*IQR或大于Q3 + 1.5*IQR的值被视为异常。 - Z-Score (标准分数法):假设数据符合正态分布。它衡量每个点偏离均值的标准差倍数。当 Z-Score 的绝对值大于 2 或 3 时,通常标记为异常。
最佳实践
检测到异常值后,不应直接武断删除。建议首先检查源头数据是否存在录入错误;如果数据真实,则需评估该异常值是否蕴含重要的业务信息(如金融风控中的异常交易识别)。