Python如何删除重复项 subset参数详解
时间:2026-05-23 11:17:41 257浏览 收藏
本文深入解析了Pandas中drop_duplicates方法的核心参数subset——它并非接受位置索引或正则表达式,而是严格要求传入列名字符串或字符串列表,用于精准定义“按哪些列的组合值判断重复”,其余列完全不参与去重逻辑;文章不仅厘清了单列与多列去重的正确写法、常见报错根源(如列名拼写错误、NaN被默认视为不等导致漏删),还揭示了keep参数的真实作用边界、缺失值处理的隐蔽陷阱、数据类型对性能的显著影响,以及如何结合业务语义校验subset是否真正反映“逻辑重复”,堪称一份兼顾原理、避坑与实战优化的高价值指南。

drop_duplicates的subset参数到底填什么
填列名字符串或字符串列表,不是索引、不是位置序号、不是正则。传入subset的本质是告诉 Pandas:“只看这几列的组合值是否重复”,其余列不影响去重逻辑。
常见错误:传subset=0(误当位置索引)、subset=['col1', 'col2']却拼错列名(触发KeyError: "['xxx'] not in index")、或用subset='col1'但该列是数值型而实际想按字符串内容比——这些都会直接报错或结果异常。
- 单列去重:用
subset='col_name'或subset=['col_name'](二者等价) - 多列联合去重:必须用列表,如
subset=['user_id', 'event_time'] - 列名含空格或特殊字符?必须原样匹配,建议先用
df.columns.tolist()确认真实名称
keep参数和subset一起用时的行为细节
keep决定保留哪一行重复记录,默认'first',但它只在subset定义的列组合相同时才生效。换句话说:两行在指定列上完全一致,才进入“留第一/留最后/全删”的判断;只要有一列不同,就根本不算重复。
容易被忽略的点:如果subset漏掉关键列(比如只选'email'却忽略'source'),可能导致本该区分的账号被合并;反之若多加一列(比如加了'updated_at'这个高精度时间戳),可能让所有行都“不重复”,导致去重失效。
keep='first':保留每组重复中的第一行(按原始顺序)keep='last':保留每组重复中的最后一行keep=False:整组都删掉,不留任何一行- 注意:
keep不改变原df顺序,只是筛选;如需排序后去重,先sort_values再drop_duplicates
处理缺失值(NaN)时subset的坑
Pandas 默认把 NaN 视为“彼此不相等”,所以subset=['col_a']中,两行都是NaN,不会被识别为重复——这是最常踩的隐性坑。
比如清洗用户表,用subset=['phone']去重,结果多个空手机号用户全被留下。这不是 bug,是设计行为。
- 想把 NaN 当作相同值处理?得先填充,例如
df['phone'].fillna('MISSING')再运行drop_duplicates - 或者用
subset配合df.drop_duplicates(subset=['col_a'], keep='first', ignore_index=True),但ignore_index只是重置索引,不解决 NaN 比较问题 - 更稳妥的做法:显式过滤 + 分组,例如
df[~df.duplicated(subset=['col_a'], keep=False) | df['col_a'].notna()]——但这已超出subset本身能力范围
性能提示:subset列的数据类型和重复率影响很大
如果subset里有 object 类型列(尤其是长文本),Pandas 内部哈希开销会明显上升;而 datetime 或数值列则快得多。另外,重复率越高,drop_duplicates越快(因为早期就能剪枝);低重复率+大数据量时,考虑是否真需要内存内去重,还是该下推到数据库或用dask。
- 提速技巧:对高频去重列提前转成 category 类型,如
df['status'] = df['status'].astype('category') - 避免临时列干扰:不要在
subset里混入刚用apply生成的列,除非确认过其 dtype 和唯一性 - 调试时加
print(df.duplicated(subset=['x','y']).sum()),先看重复数再执行删除
subset写对没,得同步检查那几列的缺失值表现、数据类型、以及业务上“重复”的定义是否真能被这几列准确刻画。本篇关于《Python如何删除重复项 subset参数详解》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于文章的相关知识,请关注golang学习网公众号!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
167 收藏
-
420 收藏
-
418 收藏
-
257 收藏
-
198 收藏
-
108 收藏
-
395 收藏
-
177 收藏
-
445 收藏
-
359 收藏
-
416 收藏
-
390 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 485次学习