首页 > 文章 > python教程

Python数据清洗技巧大全

时间：2026-02-03 21:59:38 385浏览收藏

今日不肯埋头，明日何以抬头！每日一句努力自己的话哈哈~哈喽，今天我将给大家带来一篇《Python数据清洗技巧快速掌握【教程】》，主要内容是讲解等等，感兴趣的朋友可以收藏或者有更好的建议在评论提出，我都会认真看的！大家一起进步，一起学习！

数据清洗需直击痛点：读取时用skiprows、na_values等参数过滤脏行；用str.replace和str.extract处理“人话型”数据；按业务逻辑去重填缺；用to_datetime硬扛混乱日期；每次清洗后检查效果并反思源头问题。

Python快速掌握自动化脚本中数据清洗技巧【教程】

数据清洗是自动化脚本里最常卡壳的环节——不是代码写不对，而是现实数据太“不讲理”：空值混着空字符串、日期格式五花八门、数字里夹着单位和符号、列名大小写/空格不统一……掌握几条直击痛点的清洗逻辑，比死记函数更重要。

很多脚本一上来就pd.read_csv()再慢慢删，其实读取时就能甩掉明显异常行：

比如销售表里“金额”列是"¥12,800.50元"或"USD 999"——别急着写正则循环，pandas字符串方法够用：

df['金额'] = df['金额'].str.replace(r'[^\d.-]', '', regex=True) —— 一键干掉所有非数字、小数点、负号字符
df['货币'] = df['金额'].str.extract(r'(USD|CNY|¥|€)') —— 提取币种，空值自动填NaN
之后转数值：df['金额'] = pd.to_numeric(df['金额'], errors='coerce')，错的变NaN，不中断流程

重复和缺失往往相伴而生。先想清楚业务逻辑，再动手：

去重别只写.drop_duplicates()——加subset=['订单号']按关键字段去，保留最新一条用keep='last'
缺失值填充看场景：df['客户等级'].fillna('未知')适合分类字段；数值字段慎用.mean()，优先考虑ffill()（前向填充）或按分组填充：df.groupby('地区')['销售额'].transform('mean')
检查清洗效果：df.isnull().sum()和df.duplicated().sum()放在清洗后立刻跑一遍

Excel导出的日期可能变成"2023/12/25"、"25-DEC-2023"、甚至"2023年12月25日"。不用逐个判断：

pd.to_datetime(df['日期'], errors='coerce', format='mixed')（pandas 2.0+）自动识别混合格式
老版本用infer_datetime_format=True加速推断，再配合errors='coerce'把解析失败的变NaT
后续统一输出：df['日期'].dt.strftime('%Y-%m-%d') 或直接用于时间切片：df[df['日期'] >= '2023-01-01']

基本上就这些。清洗没有银弹，但每次遇到新脏数据，就问自己三个问题：它为什么脏？业务上怎么理解它？下次怎么让源头少产一点？脚本稳了，人就轻松了。

以上就是本文的全部内容了，是否有顺利帮助你解决问题？若是能给你带来学习上的帮助，请大家多多支持golang学习网！更多关于文章的相关知识，也可关注golang学习网公众号。