首页 > 文章 > python教程

怎么在Python中快速识别数据表中的重复行_使用duplicated与drop_duplicates

时间：2026-05-04 20:57:52 319浏览收藏

本篇文章给大家分享《怎么在Python中快速识别数据表中的重复行_使用duplicated与drop_duplicates》，覆盖了文章的常见基础知识，其实一个语言的全部知识点一篇文章是不可能说完的，但希望通过这些问题，让读者对自己的掌握程度有一定的认识(B 数)，从而弥补自己的不足，更好的掌握它。

duplicated() 返回布尔Series而非DataFrame，因其按行整体判断重复，True表示该行此前已出现；默认keep='first'导致首行不标为重复，需用keep=False才标记所有重复行。

为什么 `duplicated()` 返回的不是布尔 DataFrame 而是 Series？

因为 duplicated() 默认按行整体判断重复，返回的是每行是否为“后续出现的重复项”的布尔值（True 表示该行在它之前已出现过），结果自然是一维 Series。如果你误以为它会逐列返回，很可能是混淆了 subset 参数的作用——它只限定判断依据的列，不改变输出结构。

常见错误现象：df.duplicated().sum() 返回 0，但肉眼可见有重复；原因常是默认 keep='first'，即首行不算重复，只标记后续重复行。想统计所有重复行（含首次出现），得用：df.duplicated(keep=False).sum()。

keep='first'：保留第一次出现的行，后续重复行标为 True
keep='last'：保留最后一次出现的行，前面重复行标为 True
keep=False：所有重复行（含首次）都标为 True，适合全量识别

用 `drop_duplicates()` 时，`inplace=True` 真的省内存吗？

不省。Pandas 的 inplace=True 并非原地修改，而是内部仍创建新对象再赋值回原变量，且可能引发链式赋值警告或意外行为。官方早已建议避免使用，尤其在函数内或管道操作中。

更安全、更清晰的做法是显式赋值：df_clean = df.drop_duplicates()。如果真关心内存，注意 drop_duplicates() 默认对所有列做哈希比对，列数多、字符串长时开销大。可指定 subset 限制范围，例如：df.drop_duplicates(subset=['user_id', 'order_date'])。

未指定 subset 时，会对每行所有非 NaN 值计算哈希，性能随列数和字符串长度陡增
subset 中包含缺失值（NaN）的行，默认会被视为彼此重复（Pandas 认为 NaN == NaN 为 False，但 duplicated() 内部特殊处理使其等价）
若需忽略 NaN 的影响，先用 fillna() 或 dropna(subset=[...]) 预处理

如何同时拿到重复行本身 + 原始索引位置？

直接用 duplicated(keep=False) 筛选后，df[df.duplicated(keep=False)] 就能拿到所有重复行（含首次），但索引仍是原始索引，无需额外恢复。这是最轻量的方式。

如果还要分组查看哪些行互为重复，可以结合 groupby() 和 ngroup()：

df['dup_group'] = df.groupby(df.columns.tolist()).ngroup()
duplicates = df[df.dup_group != -1].sort_values('dup_group')

不过要注意：当列含不可哈希类型（如 list、dict）时，groupby() 会报错，此时必须先转成可哈希形式（如 df.apply(lambda x: str(x.to_dict()), axis=1)），但性能代价高，慎用。

df.duplicated(keep=False) 是识别重复行的最小成本方案，推荐优先使用
涉及时间戳、浮点数等易因精度导致“本应重复却未识别”的情况，先用 round() 或 dt.floor() 统一精度
大数据量下，duplicated() 比 drop_duplicates().shape[0] != len(df) 判断是否存在重复更快，因后者强制执行完整去重

实际处理时，最容易被忽略的是缺失值与数据类型混杂带来的隐性不一致——比如一列本该是整数，却混入了 float64 类型的 2.0 和 int64 的 2，Pandas 会视作不同值。动手前先用 df.dtypes 和 df.isna().sum() 快速扫一眼。

好了，本文到此结束，带大家了解了《怎么在Python中快速识别数据表中的重复行_使用duplicated与drop_duplicates》，希望本文对你有所帮助！关注golang学习网公众号，给大家分享更多文章知识！

资料下载

编程学习资料下载

精选编程（Golang、Python、Java、C++、JavaScript等）教程、电子书与示例源码，一键打包本地下载学习。

立即下载

怎么在Python中快速识别数据表中的重复行_使用duplicated与drop_duplicates

为什么 duplicated() 返回的不是布尔 DataFrame 而是 Series？

用 drop_duplicates() 时，inplace=True 真的省内存吗？

如何同时拿到重复行本身 + 原始索引位置？

为什么 `duplicated()` 返回的不是布尔 DataFrame 而是 Series？

用 `drop_duplicates()` 时，`inplace=True` 真的省内存吗？