首页 > 文章 > python教程

Python中如何优化read_csv的读取速度_指定dtype和low_memory参数

时间：2026-05-05 12:45:44 135浏览收藏

从现在开始，努力学习吧！本文《Python中如何优化read_csv的读取速度_指定dtype和low_memory参数》主要讲解了等等相关知识点，我会在golang学习网中持续更新相关的系列文章，欢迎大家关注并积极留言建议。下面就先一起来看一下本篇正文内容吧，希望能帮到你！

read_csv默认慢因dtype未指定导致类型推断：先扫描部分行再回退重读，易出错且耗时；正确做法是用列名匹配的dtype字典（如{'col': 'Int64'}），配合usecols和low_memory=False禁用推断。

为什么read_csv默认很慢？dtype不指定会触发类型推断

Pandas 读 CSV 时默认对每列做类型猜测（inference），它会先扫描部分行，再回退重读——这个过程不仅耗时，还容易出错。尤其当某列前1000行全是数字，第1001行突然出现 "N/A"，pandas 就会把整列升为 object，后续计算变慢，内存占用翻倍。

不指定 dtype：pandas 可能将整数列存成 object，哪怕数据全是 1, 2, 3
字符串列若未显式设为 dtype='string' 或 dtype='category'，默认用 object，内存多占 2–5 倍
推断失败后还会触发 low_memory=True 的分块重读逻辑，反复 IO + 内存拷贝

怎么写dtype参数才真正生效？别只写字符串名

dtype 必须是字典，key 是列名（或列索引），value 是具体类型；只传一个字符串（如 dtype=str）会被忽略。

列名不确定？用 usecols 先限定读取范围，再配 dtype
数值列优先用 pd.Int64Dtype()（支持 NaN）或 np.int32（不支持 NaN，更省内存）
字符串列强烈建议用 dtype='string'（pandas 1.0+），比 object 更快、更省内存
类别型字段（如状态、地区）直接设 dtype='category'，可压缩 70%+ 内存

df = pd.read_csv('data.csv',
                 dtype={'user_id': 'Int64',
                        'status': 'category',
                        'name': 'string'},
                 usecols=['user_id', 'status', 'name'])

low_memory=False到底在关什么？不是“关了就快”

low_memory 控制是否启用分块类型推断。设为 False 并不提速，只是让 pandas 一次性读完所有行再统一推断类型——这反而可能爆内存，且仍会推断错。

真正该做的是：关掉推断，自己定死 dtype
所以通常应同时设置：low_memory=False + 显式 dtype 字典
如果连列名都未知，先用 nrows=100 快速采样，用 pd.api.types.infer_dtype() 看各列典型类型，再写 dtype

还有哪些小动作影响实际速度？skiprows和chunksize别乱用
`skiprows` 若传函数（如 `lambda x: x < 10`），每行都调用一次，比传整数列表慢 3–5 倍
`chunksize` 适合流式处理，但单次读全量时设它反而引入额外循环开销
确保文件编码正确，`encoding='utf-8'` 比默认的 `'utf-8-sig'` 略快；含 BOM 的文件才需后者
大文件优先考虑 `pyarrow` 引擎：`engine='pyarrow'`，配合 `dtype` 可提速 2–4 倍（需安装 `pyarrow`）

最常被忽略的一点：dtype 字典里的列名必须和 CSV 实际列名完全一致（包括空格、大小写），哪怕只差一个空格，那一列就退回默认推断——速度和内存优势全丢。

好了，本文到此结束，带大家了解了《Python中如何优化read_csv的读取速度_指定dtype和low_memory参数》，希望本文对你有所帮助！关注golang学习网公众号，给大家分享更多文章知识！

资料下载

编程学习资料下载

精选编程（Golang、Python、Java、C++、JavaScript等）教程、电子书与示例源码，一键打包本地下载学习。

立即下载