登录
首页 >  文章 >  php教程

PHP存储中文乱码解决方法

时间:2026-05-19 16:19:34 406浏览 收藏

PHP存储中文乱码并非PHP本身不支持中文,而是MySQL连接编码、数据库/表字符集、PHP源文件编码、HTTP响应头这四大环节未统一为utf8mb4/UTF-8所致;其中连接层默认latin1、数据库未升级至真正兼容Unicode的utf8mb4、PHP文件误存为GBK或含BOM、以及响应头与内容编码不一致,是90%乱码问题的根源,需系统性排查并同步配置四者,尤其要警惕混合编码环境下的隐式错误。

PHP如何存储中文数据_PHP存储中文乱码解决【编码】

PHP 存储中文数据乱码,90% 是编码链路断在了某一个环节,不是“PHP 不支持中文”,而是 MySQL 连接编码数据库/表字符集PHP 文件保存编码HTTP 响应头 四者没对齐。

MySQL 连接层默认用 latin1,不显式设置就必然丢中文

PHP 用 mysqliPDO 连接 MySQL 时,即使数据库本身是 utf8mb4,连接初始化仍可能走服务端默认(通常是 latin1)。中文 INSERT 后查出来是问号或乱码,大概率卡在这步。

  • mysqli:连接后立刻执行 $mysqli->set_charset('utf8mb4'),不能只靠 DSN 里加 ;charset=utf8mb4(旧版本不认)
  • PDO:DSN 中必须带 ;charset=utf8mb4,且要确认 PHP 版本 ≥ 5.3.6;更稳妥做法是创建后执行 $pdo->exec("SET NAMES utf8mb4")
  • 检查当前连接编码:执行 SELECT @@character_set_client, @@character_set_connection, @@character_set_results,三者都应为 utf8mb4

数据库和表没设成 utf8mb4,存 emoji 或生僻字直接截断

utf8 在 MySQL 里是阉割版(最多 3 字节),真正兼容全部 Unicode(包括 emoji、中文扩展 B 区)的是 utf8mb4。只改连接不够,库和表结构也得同步升级。

  • 建库时指定:CREATE DATABASE db_name CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci
  • 已有库修改:ALTER DATABASE db_name CHARACTER SET = utf8mb4 COLLATE = utf8mb4_unicode_ci
  • 已有表修改:ALTER TABLE table_name CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci
  • 注意:utf8mb4 要求 MySQL ≥ 5.5.3,且 innodb_large_prefix 开启(5.7+ 默认开)

PHP 文件本身是 GBK 编码,读进去的字符串从源头就错

如果 PHP 源文件用记事本保存为 GBK,但代码里写 $str = "中文";,这个字符串在内存里就是 GBK 字节流。后续无论怎么 set_charset,传给 MySQL 的都是错的二进制。

  • 编辑器务必设为 UTF-8 无 BOM(VS Code、PhpStorm 默认如此;Windows 记事本要手动选“UTF-8”而非“UTF-8-BOM”)
  • 检查文件真实编码:Linux 下用 file -i filename.php,或用 hexdump -C filename.php | head 看前几个字节是否为 ef bb bf(BOM)
  • HTML 表单提交中文时,确保页面声明了 ,否则浏览器可能按系统默认编码(如 Windows-1252)编码 POST 数据

header() 和 mysql_real_escape_string 已过时,别再混用

PHP 7.4+ 已移除 mysql_* 函数,mysql_real_escape_string 不仅失效,还会因未初始化连接而报错。同时,header('Content-Type: text/html; charset=gbk') 这类响应头若与实际内容编码不符,浏览器解析照样乱码。

  • 废弃函数一律换 mysqli_real_escape_string() 或(更推荐)用预处理语句:$stmt = $mysqli->prepare("INSERT INTO t VALUES (?)"); $stmt->bind_param("s", $str);
  • 输出 HTML 时,header() 中的 charset 必须和 标签、以及 PHP 输出的实际字节一致,三者都应为 UTF-8
  • JSON 接口返回中文:用 json_encode($data, JSON_UNESCAPED_UNICODE),否则默认转义成 \uXXXX

最常被忽略的是「连接编码」和「文件编码」的隐式不一致——一个用 IDE 保存为 UTF-8,另一个用命令行 vim 打开改了几行却存成了 latin1,这种混合编码环境,调试时连 var_dump 都看不出问题。

以上就是《PHP存储中文乱码解决方法》的详细内容,更多关于的资料请关注golang学习网公众号!

资料下载
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>