首页 > 文章 > python教程

Python用read_sql直连MySQL提取数据教程

时间：2026-04-03 22:51:47 484浏览收藏

本文详解了使用 pandas 的 `read_sql` 直连 MySQL 提取数据的完整实践要点：从解决常见报错（如缺失 pymysql 驱动、URL 前缀错误）到安全构造含特殊字符的连接字符串（推荐 `urllib.parse.quote_plus` 编码），再到应对大数据量的内存优化策略（`chunksize` 分块读取）、时间字段的精准解析与时区统一（通过 `connect_args` 设定 MySQL 时区及 `na_values` 处理非法日期），最后强调连接初始化阶段的关键配置（字符集、超时等）对后续稳定性的决定性影响——每一步都直击生产环境中的真实痛点，助你避开坑、提效率、保数据准确。

Python怎么读取数据库数据_read_sql直连MySQL执行查询提取表格数据

pd.read_sql 直连 MySQL 报错 `ModuleNotFoundError: No module named 'pymysql'`

不是 pd.read_sql 本身有问题，而是它不自带数据库驱动 —— 必须手动装对应连接器。MySQL 默认推荐 pymysql（纯 Python，跨平台），也可用 mysql-connector-python（Oracle 官方）或 mysqldb（C 扩展，Linux 常用但 Windows 编译麻烦）。

实操建议：

先运行 pip install pymysql，最省事；如果已有 mysql-connector-python，就不用重装
检查是否装错包名：pip install PyMySQL（首字母大写）也能装上，但 import 时仍要写 import pymysql
若用 Anaconda，建议用 conda install pymysql，避免环境混用导致 import 失败
报错里出现 KeyError: 'mysql+'？说明 URL 前缀写成了 mysql://，正确应为 mysql+pymysql://

构造 `sqlalchemy.create_engine` 连接串时密码含特殊字符（如 @ / :）直接崩

URL 里的用户名、密码、host 都会被当 URL 组件解析，@、/、:、% 这类字符不转义就会截断连接信息，导致连错库、认证失败，甚至抛出 Invalid URL 或 Access denied。

实操建议：

用 urllib.parse.quote_plus 包一层密码（或用户名）：
from urllib.parse import quote_plus
password = quote_plus("p@ss/w0rd")
engine = create_engine(f"mysql+pymysql://user:{password}@localhost:3306/db")
别手写 %40 这种编码 —— 容易漏、难维护，交给 quote_plus 更稳
如果密码是空字符串，也要显式传 ""，不能留空位，否则 URL 解析会错位

执行 `pd.read_sql` 查询大表时内存爆掉或卡死

pd.read_sql 默认把整个结果集一次性加载进内存，查几百万行、带 TEXT/BLOB 字段的表，很容易触发 OOM 或拖慢整个 notebook。

实操建议：

加 chunksize=10000 参数，返回的是 Iterator[pd.DataFrame]，可逐块处理：
for chunk in pd.read_sql("SELECT * FROM logs", engine, chunksize=10000):
process(chunk)
能加 WHERE 就别全表扫 —— 即使只是加个 WHERE id > 100000，也能大幅减少传输和解析开销
确认字段类型：如果 MySQL 里是 DATETIME，但 pandas 读成 object，后续计算慢还占内存，可在 read_sql 中用 parse_dates 或 dtype 显式指定

查询结果中时间字段变成 NaT 或时区错乱

MySQL 的 DATETIME 没有时区信息，但 pandas 默认按本地时区解析；如果 MySQL server 设置了 time_zone='+08:00'，而 Python 连接没同步，就可能出现时间偏移、NaT（尤其是值为 0000-00-00 00:00:00 这种非法日期）。

实操建议：

连接串末尾加上 ?charset=utf8mb4&local_infile=0 不够，关键要设 connect_args={"init_command": "SET time_zone = '+00:00'"}，统一按 UTC 解析再转本地
遇到 NaT，先查原始数据里有没有 0000-00-00 —— pandas 默认不认这个，可在 read_sql 加参数 keep_default_na=False + na_values=["0000-00-00", "0000-00-00 00:00:00"]
如果只要日期不要时间，用 parse_dates=["created_date"] + date_parser=lambda x: pd.to_datetime(x).dt.date（注意性能损耗）

有些细节得在建 engine 那一刻就定好，比如时区、字符集、连接超时；等报错了再回头调，往往要翻三四个地方。

终于介绍完啦！小伙伴们，这篇关于《Python用read_sql直连MySQL提取数据教程》的介绍应该让你收获多多了吧！欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布文章相关知识，快来关注吧！

Python用read_sql直连MySQL提取数据教程

pd.read_sql 直连 MySQL 报错 ModuleNotFoundError: No module named 'pymysql'

构造 sqlalchemy.create_engine 连接串时密码含特殊字符（如 @ / :）直接崩

执行 pd.read_sql 查询大表时内存爆掉或卡死

查询结果中时间字段变成 NaT 或时区错乱

pd.read_sql 直连 MySQL 报错 `ModuleNotFoundError: No module named 'pymysql'`

构造 `sqlalchemy.create_engine` 连接串时密码含特殊字符（如 @ / :）直接崩

执行 `pd.read_sql` 查询大表时内存爆掉或卡死