首页 > 文章 > python教程

Python如何找出DataFrame中重复的数据行_调用duplicated函数配合keep参数

时间：2026-05-06 09:33:48 366浏览收藏

来到golang学习网的大家，相信都是编程学习爱好者，希望在这里学习文章相关编程知识。下面本篇文章就来带大家聊聊《Python如何找出DataFrame中重复的数据行_调用duplicated函数配合keep参数》，介绍一下，希望对大家的知识积累有所帮助，助力实战开发！

duplicated() 默认只标记后续重复行为True，首行为False；用keep=False可标记全部重复行，配合subset可指定列判断重复，需注意NaN、字符串格式和时间精度等预处理。

duplicated() 默认只标记「后续出现的重复行」为 True，首行仍为 False。这意味着它不会把第一次出现的那行当成重复项——这是很多人误以为“没检测出来”的原因。

常见错误现象：df[df.duplicated()] 返回空，但肉眼可见有重复；其实是重复行的第一条被放过了。

想把某组重复数据的所有行都捞出来，不能只靠默认 duplicated()，得配合 keep=False + 布尔索引。

示例：

dup_mask = df.duplicated(keep=False)
duplicate_rows = df[dup_mask].copy()

注意：duplicate_rows 里每组重复数据会完整出现多次（比如 3 行相同，则返回这 3 行），不是去重后的“模板行”。

实际中往往不看整行，而是关注业务主键列，比如只看 ['user_id', 'order_date'] 是否重复。

直接传列名列表给 subset 参数即可：

df.duplicated(subset=['user_id', 'order_date'], keep='first')

duplicated() 底层依赖哈希，对百万级以上行数依然较快，但有几点容易被忽略：

真正难的不是调用函数，而是确认“什么是你定义的重复”：字段是否要清洗、空值怎么算、时间精度要不要截断、业务上是否允许部分字段为空却仍视为同一笔记录——这些决定了 subset 和预处理怎么做，而不是 keep 参数本身。

本篇关于《Python如何找出DataFrame中重复的数据行_调用duplicated函数配合keep参数》的介绍就到此结束啦，但是学无止境，想要了解学习更多关于文章的相关知识，请关注golang学习网公众号！

资料下载