首页 > 文章 > php教程

PHP印地文字符串长度判断技巧

时间：2026-05-27 17:26:38 249浏览收藏

PHP 中处理印地文（天城文字）字符串长度时，`strlen()` 因仅统计字节数而严重失准——如“हिन्दी”返回18而非实际的6个字符；必须使用 `mb_strlen($str, 'UTF-8')` 并确保字符串为合法 UTF-8 编码，同时警惕编码隐式依赖、混合文本切分陷阱及合字（ligature）导致的视觉字符与 Unicode 码点差异，才能真正获得准确、可靠、可落地的印地文长度判断结果。

php判断字符串长度含印地文_php印地文长度计算法【步骤】

PHP 默认的 strlen() 和 mb_strlen() 在处理印地文（Devanagari）时，必须用 UTF-8 编码 + 正确的字符编码参数，否则返回的是字节数而非真实字符数。

为什么 `strlen()` 算不准印地文长度

印地文字符（如 "हिन्दी"）在 UTF-8 中每个字符占 2–3 字节。strlen() 只统计字节长度，不是 Unicode 字符个数。例如：strlen("हिन्दी") 返回 18（6 个字符 × 平均 3 字节），但实际是 6 个字符。

必须确保字符串本身是合法 UTF-8 编码（可用 mb_check_encoding($str, 'UTF-8') 验证）
服务器或脚本未声明 UTF-8 时，mb_* 函数可能默认用 ISO-8859-1，导致结果错误
不要依赖 iconv_strlen() —— 它对 Devanagari 的支持不稳定，尤其含合字（ligature）如 "त्त" 时易漏计

用 `mb_strlen()` 计算印地文真实字符数

这是最可靠方式，但必须显式传入 'UTF-8' 第二个参数。PHP 7.4+ 虽支持默认内部编码，但不建议省略。

正确写法：mb_strlen($str, 'UTF-8')
错误写法：mb_strlen($str)（依赖 mb_internal_encoding()，易被框架或配置覆盖）
若字符串来自表单或 API，先用 mb_convert_encoding($str, 'UTF-8', 'auto') 做容错转换，避免乱码干扰计数

验证印地文是否含有效 Devanagari 字符范围

仅靠长度不够，有时需确认字符串“确实是印地文”。可借助 Unicode 区块正则：

if (preg_match('/^[\x{0900}-\x{097F}\x{0980}-\x{09FF}]+$/u', $str)) {
    // 属于天城文（印地文、梵文等）主区块
}

注意：\x{0900}-\x{097F} 是标准印地文字符区，\x{0980}-\x{09FF} 包含孟加拉文等邻近文字，按需调整。不要用 /[क-न]/u 这类简写 —— 合字、元音符号（मात्रा）、Virama（्）等不在连续区间内，会漏判。

特殊场景：含英文/数字混合的印地文字符串

比如 "हिन्दी123"，mb_strlen() 仍准确，但若要做“纯印地文字符占比”判断，需拆解：

用 preg_match_all('/[\x{0900}-\x{097F}]/u', $str, $matches) 提取所有天城文字符
避免用 str_split() 或 mb_str_split()（PHP 7.4+）直接切分 —— 某些组合字符（如 "क्‍ष"）会被错误断开
如需逐字符处理，优先用 grapheme_extract()（需启用 intl 扩展）或 preg_split('//u', $str, -1, PREG_SPLIT_NO_EMPTY)

印地文的合字结构和变音符号让“字符”边界比拉丁文模糊；mb_strlen() 给出的是 Unicode 码点数，不是视觉字形数（glyph count），这点在排版或输入限制场景中容易被忽略。

以上就是《PHP印地文字符串长度判断技巧》的详细内容，更多关于的资料请关注golang学习网公众号！

最新阅读

更多>

文章 · php教程 | 2天前 | nginx · php-fpm · php教程 · 502错误 · 故障复盘 · 慢日志 · Nginx php-fpm 性能排查 PHP教程 502 Bad Gateway pm.max_children 慢日志

PHP-FPM 子进程打满导致 502 怎么排查：从 Nginx 错误日志到 pm.max_children 调整

407 收藏
文章 · php教程 | 2天前 | 日志 · HTTP · 超时控制 · php教程 · 接口监控 · 请求超时 stream_context_create PHP教程 PHP HTTP请求接口探测器

PHP HTTP 超时探测器怎么写：状态码、耗时和日志验收

289 收藏
文章 · php教程 | 3天前 | 文件上传 · 后端开发 · php教程 · 安全校验 · move_uploaded_file $_FILES finfo_file PHP上传文件文件安全校验

PHP 上传文件怎么安全校验：$_FILES、finfo 和 move_uploaded_file 实战

409 收藏
文章 · php教程 | 3天前 | [] · []

PHP Session 高并发为什么会卡住：从文件锁迁到 Redis 会话存储

164 收藏
文章 · php教程 | 4天前 | 文件上传 · php教程 · $_FILES · 上传安全 · MIME · PHP文件上传 move_uploaded_file $_FILES 文件校验 MIME PHP教程

PHP 文件上传怎么做才安全：从 $_FILES 校验到落盘和清理

242 收藏
文章 · php教程 | 1星期前 | PHP · 错误提示 · 表单校验 · 用户体验 · 服务端验证 · 用户体验表单校验服务端验证 PHP教程错误回填字段错误旧输入

PHP 表单校验错误怎么回填：保留输入、定位字段和友好提示

134 收藏
文章 · php教程 | 1星期前 | Redis · 迁移 · session · php教程 · 登录态 · redis session phpredis PHP教程 session.save_handler 分布式登录回归检查

PHP Session 迁移到 Redis：从本机文件到集中存储的回归检查清单

145 收藏
文章 · php教程 | 1星期前 | 参数校验 · PHP · DTO · 接口设计 · php 参数校验统一错误响应 Request DTO 接口迁移

PHP 老接口迁移变更单：从散落 $_POST 到 Request DTO 与统一错误响应

199 收藏
文章 · php教程 | 1星期前 | PHP · PRG · 表单提交 · 重复提交 · 用户体验 · 用户体验重复提交 PHP表单 PRG模式闪存消息

PHP 表单提交后刷新重复提交怎么办：PRG 模式和闪存提示这样做

232 收藏
文章 · php教程 | 1星期前 | PHP · php-fpm · 运维排查 · 慢请求 · 运维 slowlog php-fpm 进程池慢请求

PHP-FPM 慢请求报警运行手册：从 slowlog 到进程池参数调整

336 收藏
文章 · php教程 | 1星期前 | Redis · 任务队列 · php教程 · 接口优化 · 后台任务 · 异步处理 PHP队列后台任务 Redis队列接口优化 Job Worker

PHP 同步接口队列化改造趋势：从请求内处理到后台 Job Worker

178 收藏
文章 · php教程 | 1星期前 | 内存优化 · php教程 · 后端排查 · CSV导出 · php 生成器内存耗尽 fputcsv CSV导出流式写入

PHP 导出大数据内存耗尽排查：从一次性数组到流式写 CSV

471 收藏

课程推荐

更多>

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

立即学习 543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

立即学习 516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

立即学习 500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

立即学习 487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

立即学习 485次学习

PHP印地文字符串长度判断技巧

为什么 strlen() 算不准印地文长度

用 mb_strlen() 计算印地文真实字符数

验证印地文是否含有效 Devanagari 字符范围

特殊场景：含英文/数字混合的印地文字符串

为什么 `strlen()` 算不准印地文长度

用 `mb_strlen()` 计算印地文真实字符数