首页 > 文章 > python教程

Pandas列下划线分割技巧详解

时间：2026-01-26 15:21:54 409浏览收藏

在文章实战开发的过程中，我们经常会遇到一些这样那样的问题，然后要卡好半天，等问题解决了才发现原来一些细节知识点还是没有掌握好。今天golang学习网就整理分享《Pandas列下划线分割方法详解》，聊聊，希望可以帮助到正在努力赚钱的你。

如何基于首个下划线分割 Pandas 列为两部分

使用 `str.extract()` 配合正则表达式可精准按第一个下划线将字符串列拆分为两个独立列，避免 `str.split()` 带来的嵌套列表或多余下划线干扰。

在 Pandas 中，若需将形如 'Male_85__and_over' 的字符串仅按第一个下划线 _ 拆分为两部分（即 gender='Male'，age='85__and_over'），直接使用 str.split('_', n=1) 是合理思路，但后续处理需谨慎——如原代码中 .str[1:] 会返回列表（如 ['85__and_over']），导致 age 列存储的是 Python 列表对象，而非纯字符串，影响后续分析。

✅ 推荐方案：str.extract() + 正则捕获组
该方法语义清晰、结果干净，且天然支持“首次匹配”逻辑：

test[["gender", "age"]] = test["column_Name_pivoted"].str.extract(r'([^_]+)_([^_]+)')

([^_]+)：匹配第一个下划线前所有非下划线字符（贪婪，但止于首个 _）；
_：字面量下划线（作为分隔符）；
([^_]+)：匹配第一个下划线后、第二个下划线前的所有非下划线字符——⚠️注意：此正则实际只适用于“恰好含一个下划线”的情况。

? 更健壮的通用写法（推荐）：
若右侧部分可能包含多个下划线（如 '85__and_over'），应改为匹配“第一个 _ 之后的全部剩余内容：

test[["gender", "age"]] = test["column_Name_pivoted"].str.extract(r'^([^_]+)_(.*)$')

^([^_]+)：行首开始，捕获首个 _ 前的连续非下划线字符；
_：字面量第一个下划线；
(.*)：捕获其后任意字符（包括其余下划线），$ 确保匹配到行尾。

✅ 输出效果： | gender | age | |--------|----------------| | Male | 85__and_over |

? 补充说明：

若原始数据中存在不含 _ 的行，str.extract() 对应位置将返回 NaN，可结合 fillna() 或预过滤处理；
替代方案（不依赖正则）：str.partition('_') 更直观——它始终返回三元组 (left, sep, right)，且对无分隔符的字符串安全返回 (s, '', '')：

parts = test["column_Name_pivoted"].str.partition('_')
test["gender"] = parts[0]
test["age"] = parts[2]  # 注意：索引 2 是 right 部分（索引 1 是 '_'）

综上，str.extract(r'^([^_]+)_(.*)$') 是兼顾准确性、可读性与鲁棒性的首选方法，尤其适合结构化清洗任务。

今天关于《Pandas列下划线分割技巧详解》的内容就介绍到这里了，是不是学起来一目了然！想要了解更多关于的内容请关注golang学习网公众号！