首页 > 文章 > python教程

Python导入CSV数据：pandas.read_csv参数与编码设置

时间：2026-04-09 21:57:46 378浏览收藏

本文深入解析了Python中使用pandas.read_csv导入CSV文件时最常遇到的五大痛点：中文乱码本质是文件编码（如Windows默认gbk）与读取encoding参数（pandas默认utf-8）不匹配，需借助编辑器识别或chardet探测，并灵活选用'gbk'、'utf-8-sig'等；sep与delimiter等价但推荐统一用sep，面对非标准分隔符可启用sep=None+engine='python'自动推断；处理大文件时通过nrows、usecols、dtype和chunksize等参数显著降低内存占用；复杂表头结构可通过header多索引、skiprows组合精准定位；最后强调“静默错误”——如日期误转、前导零丢失、布尔值识别异常等看似成功实则失真的陷阱，必须养成读取后立即检查df.dtypes和df.head()的习惯。掌握这些实战参数组合，才能真正稳、准、快地驾驭真实场景中的CSV数据导入。

Python怎么导入CSV数据_pandas.read_csv常用参数与编码设置

读CSV时中文乱码，先看`encoding`设对没

乱码不是pandas的问题，是文件保存时的编码和pandas.read_csv()读取时指定的编码不一致。Windows记事本默认存为gbk，但pandas默认用utf-8去读，一读就崩。

实操建议：

先用文本编辑器（如VS Code、Notepad++）打开CSV，右下角看实际编码，常见有utf-8、gbk、gb2312、utf-8-sig
如果编辑器显示正常但read_csv报错或乱码，优先试encoding='gbk'（尤其国内Excel导出的CSV）
如果文件开头有BOM（比如Excel另存为UTF-8），必须用encoding='utf-8-sig'，否则第一列名可能带\ufeff

别硬猜，用Python快速探测：

import chardet
with open('data.csv', 'rb') as f:
    print(chardet.detect(f.read(10000)))

结果里encoding字段就是该填的值

`sep`和`delimiter`到底用哪个

两者完全等价，delimiter是别名，但官方文档和IDE提示都优先写sep，统一用它就行。真正容易踩坑的是分隔符本身——不是所有CSV都用逗号。

实操建议：

Excel导出的CSV在英文系统下常用sep=','，中文系统可能用sep=';'或sep='\t'（制表符）
用sep=None + engine='python'可让pandas自动推断分隔符（适合不确定格式时临时调试）
如果列里本身含逗号（比如地址字段），且没加引号，read_csv会误切——这时得配合quotechar='"'和quoting=csv.QUOTE_MINIMAL（需import csv）

读取大文件卡死或内存爆掉，试试这几个参数

read_csv默认把整个文件载入内存，几百万行CSV很容易吃光几GB内存。不是非得换Dask，几个参数就能缓解。

实操建议：

用nrows=10000先读前N行验证逻辑，别一上来就读全量
用usecols=['col1', 'col2']只加载需要的列，跳过无用字段（比如日志里的冗余时间戳）
对纯数字列，显式指定dtype={'price': 'float32'}，比默认float64省一半内存

真要处理千万级，chunksize=50000返回迭代器，逐块处理：

for chunk in pd.read_csv('big.csv', chunksize=50000):
    process(chunk)

列名缺失、多层头、空行——`header`和`skiprows`怎么配

真实CSV常有“标题行上面还有一行说明”“前两行是合并单元格”“中间插了统计汇总行”，这时候光靠header=0不够用。

实操建议：

header=[0,1]可读取多级列名（比如Excel里合并单元格导出的双行表头）
skiprows=2跳过前两行，再用header=0把第三行当列名；或者直接header=2（表示第2行索引作为列名）
遇到空行导致列数不一致，加skip_blank_lines=True（默认True，但显式写上更安心）
如果第一行是列名，但内容被Excel写成了Unnamed: 0，大概率是原文件带索引导出的，加index_col=0让它当行索引处理

编码和分隔符是高频雷区，但最麻烦的是那些“看起来能读进去，结果数据对不上”的情况——比如日期列自动转成数字、数字列开头零被吃掉、布尔值被识别成字符串。这些不会报错，却会让后续分析全偏，得养成读完立刻df.dtypes和df.head()交叉核对的习惯。

以上就是本文的全部内容了，是否有顺利帮助你解决问题？若是能给你带来学习上的帮助，请大家多多支持golang学习网！更多关于文章的相关知识，也可关注golang学习网公众号。

Python导入CSV数据：pandas.read_csv参数与编码设置

读CSV时中文乱码，先看encoding设对没

sep和delimiter到底用哪个

读取大文件卡死或内存爆掉，试试这几个参数

列名缺失、多层头、空行——header和skiprows怎么配

读CSV时中文乱码，先看`encoding`设对没

`sep`和`delimiter`到底用哪个

列名缺失、多层头、空行——`header`和`skiprows`怎么配