首页 > 文章 > python教程

Python找出重复行：duplicated函数用法详解

时间：2026-05-25 15:45:13 295浏览收藏

本文深入解析了Pandas中duplicated()函数的核心用法与实战陷阱，重点揭示其默认仅标记后续重复行（首行为False）这一易被误解的行为机制，并系统讲解如何通过keep参数（first/last/False）精准控制重复标记逻辑；同时强调实际应用中必须结合subset指定业务关键列、对NaN统一处理、对字符串和时间字段进行标准化预处理，才能真正识别出符合业务语义的“重复”——因为决定重复与否的从来不是代码本身，而是你对数据逻辑的清晰定义。

Python如何找出DataFrame中重复的数据行_调用duplicated函数配合keep参数

如何用 `duplicated()` 标记重复行

duplicated() 默认只标记「后续出现的重复行」为 True，首行仍为 False。这意味着它不会把第一次出现的那行当成重复项——这是很多人误以为“没检测出来”的原因。

常见错误现象：df[df.duplicated()] 返回空，但肉眼可见有重复；其实是重复行的第一条被放过了。

默认行为等价于 keep='first'：保留首次出现的行，标记之后的为重复
keep='last'：保留最后一次出现的行，标记前面的为重复
keep=False：所有重复行（包括首尾）全部标为 True，适合要完整提取所有重复记录的场景

提取全部重复行（含首次出现的那条）

想把某组重复数据的所有行都捞出来，不能只靠默认 duplicated()，得配合 keep=False + 布尔索引。

示例：

dup_mask = df.duplicated(keep=False)
duplicate_rows = df[dup_mask].copy()

注意：duplicate_rows 里每组重复数据会完整出现多次（比如 3 行相同，则返回这 3 行），不是去重后的“模板行”。

若只要每组重复数据的代表行（如第一条），用 df.drop_duplicates()
若要统计每组重复几次，用 df.groupby(list(df.columns)).size()
duplicated() 对 NaN 的处理是：多行全为 NaN 会被视为相等，但单个 NaN 和其它值比较恒为 False

按指定列判断重复（忽略某些字段）

实际中往往不看整行，而是关注业务主键列，比如只看 ['user_id', 'order_date'] 是否重复。

直接传列名列表给 subset 参数即可：

df.duplicated(subset=['user_id', 'order_date'], keep='first')

subset 支持字符串（单列）或字符串列表（多列），不支持正则或位置索引
若列中含 datetime64，注意时区和精度是否一致，微秒级差异会导致判为不重复
字符串列要提前用 .str.strip() 或 .str.lower() 统一格式，否则空格/大小写不同会被当作不同值

性能与大表注意事项

duplicated() 底层依赖哈希，对百万级以上行数依然较快，但有几点容易被忽略：

若 DataFrame 索引混乱（如重复索引、非数值索引），不影响结果，但可能干扰后续定位，建议先 reset_index(drop=True)
使用 keep=False 时内存占用略高，因为需遍历两次：一次建哈希表，一次回标所有匹配项
在 groupby().apply() 内部调用 duplicated() 需小心——keep 是相对于子组生效，不是全局

真正难的不是调用函数，而是确认“什么是你定义的重复”：字段是否要清洗、空值怎么算、时间精度要不要截断、业务上是否允许部分字段为空却仍视为同一笔记录——这些决定了 subset 和预处理怎么做，而不是 keep 参数本身。

今天关于《Python找出重复行：duplicated函数用法详解》的内容就介绍到这里了，是不是学起来一目了然！想要了解更多关于的内容请关注golang学习网公众号！

Python找出重复行：duplicated函数用法详解

如何用 duplicated() 标记重复行

提取全部重复行（含首次出现的那条）

按指定列判断重复（忽略某些字段）

性能与大表注意事项

如何用 `duplicated()` 标记重复行