登录
首页 >  文章 >  python教程

怎么在Python中快速识别数据表中的重复行_使用duplicated与drop_duplicates

时间:2026-05-04 20:57:52 319浏览 收藏

本篇文章给大家分享《怎么在Python中快速识别数据表中的重复行_使用duplicated与drop_duplicates》,覆盖了文章的常见基础知识,其实一个语言的全部知识点一篇文章是不可能说完的,但希望通过这些问题,让读者对自己的掌握程度有一定的认识(B 数),从而弥补自己的不足,更好的掌握它。

duplicated() 返回布尔Series而非DataFrame,因其按行整体判断重复,True表示该行此前已出现;默认keep='first'导致首行不标为重复,需用keep=False才标记所有重复行。

怎么在Python中快速识别数据表中的重复行_使用duplicated与drop_duplicates

为什么 duplicated() 返回的不是布尔 DataFrame 而是 Series?

因为 duplicated() 默认按行整体判断重复,返回的是每行是否为“后续出现的重复项”的布尔值(True 表示该行在它之前已出现过),结果自然是一维 Series。如果你误以为它会逐列返回,很可能是混淆了 subset 参数的作用——它只限定判断依据的列,不改变输出结构。

常见错误现象:df.duplicated().sum() 返回 0,但肉眼可见有重复;原因常是默认 keep='first',即首行不算重复,只标记后续重复行。想统计所有重复行(含首次出现),得用:df.duplicated(keep=False).sum()

  • keep='first':保留第一次出现的行,后续重复行标为 True
  • keep='last':保留最后一次出现的行,前面重复行标为 True
  • keep=False:所有重复行(含首次)都标为 True,适合全量识别

drop_duplicates() 时,inplace=True 真的省内存吗?

不省。Pandas 的 inplace=True 并非原地修改,而是内部仍创建新对象再赋值回原变量,且可能引发链式赋值警告或意外行为。官方早已建议避免使用,尤其在函数内或管道操作中。

更安全、更清晰的做法是显式赋值:df_clean = df.drop_duplicates()。如果真关心内存,注意 drop_duplicates() 默认对所有列做哈希比对,列数多、字符串长时开销大。可指定 subset 限制范围,例如:df.drop_duplicates(subset=['user_id', 'order_date'])

  • 未指定 subset 时,会对每行所有非 NaN 值计算哈希,性能随列数和字符串长度陡增
  • subset 中包含缺失值(NaN)的行,默认会被视为彼此重复(Pandas 认为 NaN == NaNFalse,但 duplicated() 内部特殊处理使其等价)
  • 若需忽略 NaN 的影响,先用 fillna()dropna(subset=[...]) 预处理

如何同时拿到重复行本身 + 原始索引位置?

直接用 duplicated(keep=False) 筛选后,df[df.duplicated(keep=False)] 就能拿到所有重复行(含首次),但索引仍是原始索引,无需额外恢复。这是最轻量的方式。

如果还要分组查看哪些行互为重复,可以结合 groupby()ngroup()

df['dup_group'] = df.groupby(df.columns.tolist()).ngroup()
duplicates = df[df.dup_group != -1].sort_values('dup_group')

不过要注意:当列含不可哈希类型(如 list、dict)时,groupby() 会报错,此时必须先转成可哈希形式(如 df.apply(lambda x: str(x.to_dict()), axis=1)),但性能代价高,慎用。

  • df.duplicated(keep=False) 是识别重复行的最小成本方案,推荐优先使用
  • 涉及时间戳、浮点数等易因精度导致“本应重复却未识别”的情况,先用 round()dt.floor() 统一精度
  • 大数据量下,duplicated()drop_duplicates().shape[0] != len(df) 判断是否存在重复更快,因后者强制执行完整去重
实际处理时,最容易被忽略的是缺失值与数据类型混杂带来的隐性不一致——比如一列本该是整数,却混入了 float64 类型的 2.0int642,Pandas 会视作不同值。动手前先用 df.dtypesdf.isna().sum() 快速扫一眼。

好了,本文到此结束,带大家了解了《怎么在Python中快速识别数据表中的重复行_使用duplicated与drop_duplicates》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多文章知识!

资料下载
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>