首页 > 文章 > php教程

PHP判断全角半角字符串长度技巧

时间：2026-02-20 23:12:50 499浏览收藏

本文深入剖析了PHP中字符串长度统计的常见误区，指出strlen()因按字节计数在UTF-8环境下会导致全角字符（如汉字、全角标点）被严重高估，无法满足业务中“全角半角统一按1个字符计数”的实际需求；进而推荐使用显式指定编码的mb_strlen()作为可靠替代，并进一步拓展至更复杂的加权场景——如短信计费或数据库字段预估中要求“半角计1、全角计2”，提供可落地的正则识别与逐字符加权计算方案，同时提醒开发者警惕隐藏字符、编码配置不一致等线上高频陷阱，兼具原理深度与工程实用性。

php判断字符串长度区分全角半角_php全角半角计数法【教程】

PHP 中用 strlen() 判断字符串长度时，中文、日文等全角字符会按字节计数（通常是 3 字节 UTF-8），导致“一个汉字算作 3 个长度”，而实际业务中常需“一个全角字符 = 1 个长度，一个半角字符 = 1 个长度”——这不能靠 strlen()，得用字符级统计。

为什么 `strlen()` 不适合全半角统一计数

strlen() 统计的是字节数，不是字符数。UTF-8 下：ASCII 字符（如 a、1、空格）占 1 字节；全角汉字（如 中）、全角标点（如 ，、。）占 3 字节；全角 ASCII（如 Ａ、Ｂ）占 3 字节；而半角标点（如 ,、.）仍为 1 字节。直接用它做表单长度限制或显示截断，会导致中文被严重低估。

用 `mb_strlen()` 替代，但要注意编码参数

mb_strlen() 是多字节安全的字符计数函数，但它默认依赖内部编码（mb_internal_encoding()），若未显式指定，容易出错：

确保已启用 mbstring 扩展（大多数现代 PHP 环境默认开启）
始终显式传入编码，例如 mb_strlen($str, 'UTF-8')，避免因 ini 配置变动导致行为不一致
不要依赖 mb_internal_encoding('UTF-8') 全局设置——它可能被其他代码覆盖

示例：

$str = "Hello世界，";  
echo strlen($str);        // 输出 13（H-e-l-l-o 5字节 + 世/界/，各3字节）  
echo mb_strlen($str, 'UTF-8'); // 输出 8（5个半角 + 3个全角字符）

需要“全角当 2，半角当 1”？自己加权统计

某些场景（如短信字数计算、数据库字段长度预估）要求：半角字符（含 ASCII 字母、数字、符号、空格）计为 1，全角字符（CJK 汉字、平假名、片假名、全角 ASCII、全角标点）计为 2。这时需逐字符判断：

用 mb_substr($str, $i, 1, 'UTF-8') 取单个字符
检查是否属于 Unicode 全角区块：常用正则 /[\x{ff01}-\x{ff5e}\x{3000}-\x{303f}\x{3400}-\x{9fff}]/u
注意：全角空格　（U+3000）要单独覆盖，上面正则已包含

简易加权函数示例：

function mb_weighted_length($str, $encoding = 'UTF-8') {  
    $len = 0;  
    $str_len = mb_strlen($str, $encoding);  
    for ($i = 0; $i 

实际使用中最容易忽略的点
输入源不可信：用户粘贴进来的文本可能混有零宽空格（\xe2\x80\x8b）、软连字符（\xc2\xad）、BOM 头等隐藏字符，它们在 mb_strlen() 下也算 1 个字符，但肉眼不可见。上线前务必用 bin2hex() 或 unpack('H*', $str) 抽样检查异常输入；另外，MySQL 的 utf8mb4 和 PHP 的 UTF-8 虽然兼容，但若 PHP 没设对 mb_internal_encoding()，mb_* 函数可能误判字符边界——这种问题在线上低频出现，排查成本很高。
理论要掌握，实操不能落！以上关于《PHP判断全角半角字符串长度技巧》的详细介绍，大家都掌握了吧！如果想要继续提升自己的能力，那么就来关注golang学习网公众号吧！

PHP判断全角半角字符串长度技巧

为什么 strlen() 不适合全半角统一计数

用 mb_strlen() 替代，但要注意编码参数

需要“全角当 2，半角当 1”？自己加权统计

实际使用中最容易忽略的点

为什么 `strlen()` 不适合全半角统一计数

用 `mb_strlen()` 替代，但要注意编码参数