首页 > 文章 > python教程

Python异常检测：Z-score与IQR算法详解

时间：2025-07-30 14:54:28 366浏览收藏

本篇文章主要是结合我之前面试的各种经历和实战开发中遇到的问题解决经验整理的，希望这篇《Python异常检测：Z-score与IQR算法全解析》对你有很大帮助！欢迎收藏，分享给更多的需要的朋友学习~

异常数据检测常用方法包括Z-score和IQR。1. Z-score适用于正态分布数据，通过计算数据点与均值相差多少个标准差，绝对值大于3则判定为异常；2. IQR适用于非正态分布数据，通过计算四分位距并设定上下界（Q1-1.5×IQR和Q3+1.5×IQR），超出范围的数值为异常值。选择方法应根据数据分布情况决定，Z-score更直观但对分布敏感，IQR更稳健且通用，可结合可视化手段提升判断准确性。

Python如何检测异常数据—Z-score/IQR算法详解

检测异常数据是数据分析中一个非常关键的步骤，尤其是在做数据清洗或建模前。Python 中常用的两种方法是 Z-score 和 IQR（四分位距）算法。这两种方法各有适用场景，也都有各自的优缺点。

下面我们就来详细说说它们分别是怎么工作的，以及在实际中该如何使用。

什么是异常值？为什么需要检测？

异常值指的是与整体数据分布明显偏离的数值，可能是由于录入错误、设备故障、极端情况等原因造成的。如果不加以处理，可能会对后续分析造成误导，比如影响模型训练效果、统计结论偏差等。

所以，在进行任何分析之前，先识别并处理这些“离群点”是非常有必要的。

Z-score 方法：适用于正态分布的数据

Z-score 的核心思想是看某个数据点距离均值有多少个标准差。一般来说，如果一个值的 Z-score 绝对值大于3，就认为它是一个异常值。

公式如下：

Z = (x - μ) / σ

其中：

x 是当前数据点
μ 是数据的平均值
σ 是数据的标准差

实现步骤：

计算数据集的平均值和标准差
对每个数据点计算 Z-score
设置阈值（通常是 3 或 -3）
筛选出超出阈值的数据点作为异常值

示例代码：

import numpy as np

data = np.array([1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 6, 100])  # 假设100是异常值
mean = np.mean(data)
std = np.std(data)
z_scores = [(x - mean) / std for x in data]
outliers = [x for x, z in zip(data, z_scores) if abs(z) > 3]

注意：Z-score 对数据分布敏感，更适合近似正态分布的情况。如果你的数据偏态严重或者有大量极端值，这个方法可能不太靠谱。

IQR 方法：适用于非正态分布数据

IQR（Interquartile Range）即四分位距，是上四分位数（Q3）与下四分位数（Q1）之间的差值。这种方法不依赖于数据是否服从正态分布，因此更通用一些。

公式如下：

IQR = Q3 - Q1

异常值判断范围为：

下界：Q1 - 1.5 * IQR
上界：Q3 + 1.5 * IQR

落在这个区间之外的值就是异常值。

实现步骤：

找到 Q1 和 Q3
计算 IQR
定义上下限
筛选超出范围的数据点

示例代码：

import numpy as np

data = np.array([1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 6, 100])
Q1 = np.percentile(data, 25)
Q3 = np.percentile(data, 75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = [x for x in data if x < lower_bound or x > upper_bound]

这种方法在可视化时也常用于箱线图（boxplot），是探索性数据分析中的常见工具。

怎么选择 Z-score 还是 IQR？

这取决于你的数据分布情况和分析目标：

如果数据大致符合正态分布，用 Z-score 更直观；
如果数据分布偏斜或者你不确定分布类型，IQR 更稳健；
可以同时尝试两种方法，对比结果，有助于发现更多潜在问题。

此外，也可以结合可视化手段（如散点图、箱线图）辅助判断。

基本上就这些。两种方法都不复杂，但在实际应用中容易忽略细节，比如数据标准化、边界定义方式等。掌握好这些小技巧，能让你在数据预处理阶段少走不少弯路。

今天关于《Python异常检测：Z-score与IQR算法详解》的内容就介绍到这里了，是不是学起来一目了然！想要了解更多关于的内容请关注golang学习网公众号！