首页 > 文章 > python教程

Pandas高效去重：删除重复行技巧

时间：2025-03-31 09:18:45 115浏览收藏

本文介绍Pandas库中高效删除DataFrame中完全重复行的方法，重点讲解`drop_duplicates()`函数的用法。通过设置`keep=False`参数，可以删除所有重复行，只保留唯一行。文章还讲解了如何使用`subset`参数指定用于去重的列，避免因额外列影响去重结果，并结合代码示例，演示了如何快速高效地去除Pandas数据表中的完全重复数据，提升数据处理效率。无论是简单的两列数据，还是包含更多列的复杂数据，都能轻松实现精准去重。

Pandas数据去重：如何高效删除完全相同的行？

使用Pandas高效去除数据表中完全重复的行

在Pandas数据处理中，经常需要清除重复数据。本文将详细讲解如何利用drop_duplicates()函数高效地删除DataFrame中完全相同的行，即使存在多于两行完全相同的情况也能轻松解决。

假设有一个Pandas DataFrame df，结构如下：

index   id  value
  1     1     2
  1     1     2
  2     2     3
  3     3     4

目标是只保留唯一行，删除所有完全相同的重复行，得到如下结果：

index   id  value
  2     2     3
  3     3     4

Pandas的drop_duplicates()函数可以完美实现这个目标。关键参数是keep，它控制如何处理重复行。将keep参数设置为False，则会删除所有重复行，只保留唯一值的行。

如果DataFrame只包含id和value两列，可以直接使用以下代码：

df.drop_duplicates(keep=False, inplace=True)

inplace=True参数表示直接修改原DataFrame，无需创建新的DataFrame。

但是，如果DataFrame包含更多列（例如时间戳、标签等），而只想根据id和value两列判断重复，则需要使用subset参数指定用于去重的列：

df.drop_duplicates(subset=['id', 'value'], keep=False, inplace=True)

这段代码只考虑id和value两列的值来判断重复，精确地删除所有值完全相同的行。keep参数仍然设置为False，确保所有重复行都被删除。

需要注意的是，keep参数还有其他两个值：'first'和'last'，分别保留第一次出现的重复行和最后一次出现的重复行。

文中关于的知识介绍，希望对你的学习有所帮助！若是受益匪浅，那就动动鼠标收藏这篇《Pandas高效去重：删除重复行技巧》文章吧，也可关注golang学习网公众号了解相关技术文章。