怎么在Python中快速识别数据表中的重复行_使用duplicated与drop_duplicates
时间:2026-05-04 20:57:52 319浏览 收藏
本篇文章给大家分享《怎么在Python中快速识别数据表中的重复行_使用duplicated与drop_duplicates》,覆盖了文章的常见基础知识,其实一个语言的全部知识点一篇文章是不可能说完的,但希望通过这些问题,让读者对自己的掌握程度有一定的认识(B 数),从而弥补自己的不足,更好的掌握它。
duplicated() 返回布尔Series而非DataFrame,因其按行整体判断重复,True表示该行此前已出现;默认keep='first'导致首行不标为重复,需用keep=False才标记所有重复行。

为什么 duplicated() 返回的不是布尔 DataFrame 而是 Series?
因为 duplicated() 默认按行整体判断重复,返回的是每行是否为“后续出现的重复项”的布尔值(True 表示该行在它之前已出现过),结果自然是一维 Series。如果你误以为它会逐列返回,很可能是混淆了 subset 参数的作用——它只限定判断依据的列,不改变输出结构。
常见错误现象:df.duplicated().sum() 返回 0,但肉眼可见有重复;原因常是默认 keep='first',即首行不算重复,只标记后续重复行。想统计所有重复行(含首次出现),得用:df.duplicated(keep=False).sum()。
keep='first':保留第一次出现的行,后续重复行标为Truekeep='last':保留最后一次出现的行,前面重复行标为Truekeep=False:所有重复行(含首次)都标为True,适合全量识别
用 drop_duplicates() 时,inplace=True 真的省内存吗?
不省。Pandas 的 inplace=True 并非原地修改,而是内部仍创建新对象再赋值回原变量,且可能引发链式赋值警告或意外行为。官方早已建议避免使用,尤其在函数内或管道操作中。
更安全、更清晰的做法是显式赋值:df_clean = df.drop_duplicates()。如果真关心内存,注意 drop_duplicates() 默认对所有列做哈希比对,列数多、字符串长时开销大。可指定 subset 限制范围,例如:df.drop_duplicates(subset=['user_id', 'order_date'])。
- 未指定
subset时,会对每行所有非 NaN 值计算哈希,性能随列数和字符串长度陡增 subset中包含缺失值(NaN)的行,默认会被视为彼此重复(Pandas 认为NaN == NaN为False,但duplicated()内部特殊处理使其等价)- 若需忽略
NaN的影响,先用fillna()或dropna(subset=[...])预处理
如何同时拿到重复行本身 + 原始索引位置?
直接用 duplicated(keep=False) 筛选后,df[df.duplicated(keep=False)] 就能拿到所有重复行(含首次),但索引仍是原始索引,无需额外恢复。这是最轻量的方式。
如果还要分组查看哪些行互为重复,可以结合 groupby() 和 ngroup():
df['dup_group'] = df.groupby(df.columns.tolist()).ngroup()
duplicates = df[df.dup_group != -1].sort_values('dup_group')
不过要注意:当列含不可哈希类型(如 list、dict)时,groupby() 会报错,此时必须先转成可哈希形式(如 df.apply(lambda x: str(x.to_dict()), axis=1)),但性能代价高,慎用。
df.duplicated(keep=False)是识别重复行的最小成本方案,推荐优先使用- 涉及时间戳、浮点数等易因精度导致“本应重复却未识别”的情况,先用
round()或dt.floor()统一精度 - 大数据量下,
duplicated()比drop_duplicates().shape[0] != len(df)判断是否存在重复更快,因后者强制执行完整去重
float64 类型的 2.0 和 int64 的 2,Pandas 会视作不同值。动手前先用 df.dtypes 和 df.isna().sum() 快速扫一眼。好了,本文到此结束,带大家了解了《怎么在Python中快速识别数据表中的重复行_使用duplicated与drop_duplicates》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多文章知识!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
118 收藏
-
376 收藏
-
280 收藏
-
112 收藏
-
376 收藏
-
319 收藏
-
244 收藏
-
371 收藏
-
191 收藏
-
473 收藏
-
372 收藏
-
376 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 485次学习