登录
首页 >  文章 >  python教程

Python导入CSV数据:pandas.read_csv参数与编码设置

时间:2026-04-09 21:57:46 378浏览 收藏

本文深入解析了Python中使用pandas.read_csv导入CSV文件时最常遇到的五大痛点:中文乱码本质是文件编码(如Windows默认gbk)与读取encoding参数(pandas默认utf-8)不匹配,需借助编辑器识别或chardet探测,并灵活选用'gbk'、'utf-8-sig'等;sep与delimiter等价但推荐统一用sep,面对非标准分隔符可启用sep=None+engine='python'自动推断;处理大文件时通过nrows、usecols、dtype和chunksize等参数显著降低内存占用;复杂表头结构可通过header多索引、skiprows组合精准定位;最后强调“静默错误”——如日期误转、前导零丢失、布尔值识别异常等看似成功实则失真的陷阱,必须养成读取后立即检查df.dtypes和df.head()的习惯。掌握这些实战参数组合,才能真正稳、准、快地驾驭真实场景中的CSV数据导入。

Python怎么导入CSV数据_pandas.read_csv常用参数与编码设置

读CSV时中文乱码,先看encoding设对没

乱码不是pandas的问题,是文件保存时的编码和pandas.read_csv()读取时指定的编码不一致。Windows记事本默认存为gbk,但pandas默认用utf-8去读,一读就崩。

实操建议:

  • 先用文本编辑器(如VS Code、Notepad++)打开CSV,右下角看实际编码,常见有utf-8gbkgb2312utf-8-sig
  • 如果编辑器显示正常但read_csv报错或乱码,优先试encoding='gbk'(尤其国内Excel导出的CSV)
  • 如果文件开头有BOM(比如Excel另存为UTF-8),必须用encoding='utf-8-sig',否则第一列名可能带\ufeff
  • 别硬猜,用Python快速探测:
    import chardet<br>with open('data.csv', 'rb') as f:<br>    print(chardet.detect(f.read(10000)))
    结果里encoding字段就是该填的值

sepdelimiter到底用哪个

两者完全等价,delimiter是别名,但官方文档和IDE提示都优先写sep,统一用它就行。真正容易踩坑的是分隔符本身——不是所有CSV都用逗号。

实操建议:

  • Excel导出的CSV在英文系统下常用sep=',',中文系统可能用sep=';'sep='\t'(制表符)
  • sep=None + engine='python'可让pandas自动推断分隔符(适合不确定格式时临时调试)
  • 如果列里本身含逗号(比如地址字段),且没加引号,read_csv会误切——这时得配合quotechar='"'quoting=csv.QUOTE_MINIMAL(需import csv

读取大文件卡死或内存爆掉,试试这几个参数

read_csv默认把整个文件载入内存,几百万行CSV很容易吃光几GB内存。不是非得换Dask,几个参数就能缓解。

实操建议:

  • nrows=10000先读前N行验证逻辑,别一上来就读全量
  • usecols=['col1', 'col2']只加载需要的列,跳过无用字段(比如日志里的冗余时间戳)
  • 对纯数字列,显式指定dtype={'price': 'float32'},比默认float64省一半内存
  • 真要处理千万级,chunksize=50000返回迭代器,逐块处理:
    for chunk in pd.read_csv('big.csv', chunksize=50000):<br>    process(chunk)

列名缺失、多层头、空行——headerskiprows怎么配

真实CSV常有“标题行上面还有一行说明”“前两行是合并单元格”“中间插了统计汇总行”,这时候光靠header=0不够用。

实操建议:

  • header=[0,1]可读取多级列名(比如Excel里合并单元格导出的双行表头)
  • skiprows=2跳过前两行,再用header=0把第三行当列名;或者直接header=2(表示第2行索引作为列名)
  • 遇到空行导致列数不一致,加skip_blank_lines=True(默认True,但显式写上更安心)
  • 如果第一行是列名,但内容被Excel写成了Unnamed: 0,大概率是原文件带索引导出的,加index_col=0让它当行索引处理

编码和分隔符是高频雷区,但最麻烦的是那些“看起来能读进去,结果数据对不上”的情况——比如日期列自动转成数字、数字列开头零被吃掉、布尔值被识别成字符串。这些不会报错,却会让后续分析全偏,得养成读完立刻df.dtypesdf.head()交叉核对的习惯。

以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于文章的相关知识,也可关注golang学习网公众号。

资料下载
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>