登录
首页 >  文章 >  java教程

String.codePointAt获取变量字符串的码点信息

时间:2026-05-24 18:00:31 300浏览 收藏

最近发现不少小伙伴都对文章很感兴趣,所以今天继续给大家介绍文章相关的知识,本文《String.codePointAt获取变量字符串的码点信息》主要内容涉及到等等知识点,希望能帮到你!当然如果阅读本文时存在不同想法,可以在评论中表达,但是请勿使用过激的措辞~

codePointAt() 能正确获取 Unicode 增补字符的完整码点,而 charCodeAt() 仅返回 UTF-16 代理单元,无法处理大于 0xFFFF 的字符;其返回值依位置不同可能为码点、代理值或 undefined。

String.codePointAt获取变量字符串的码点信息

String.codePointAt() 是 JavaScript 中用于获取指定位置字符**Unicode 码点(code point)**的方法,特别适用于处理 Unicode 中的增补字符(即码点大于 0xFFFF 的字符,如 emoji、部分汉字、古文字等)。

为什么不用 charCodeAt()

charCodeAt() 只能返回 UTF-16 编码单元(surrogate pair 中的单个 16 位值),对增补平面字符会“拆开”处理,返回不完整的高位或低位代理项,无法还原真实字符。而 codePointAt() 能正确识别并返回完整码点(如 0x1F600 表示 ?),避免误判。

基本用法与返回值

语法:str.codePointAt(index),其中 index 是字符串中从 0 开始的字符位置。

  • index 超出范围(< 0>= str.length),返回 undefined
  • 若位置对应一个 BMP 字符(如 'A''中'),返回其 Unicode 码点(如 6520013
  • 若位置是增补字符的**高位代理(surrogate high)**,且后续紧跟低位代理,则返回完整码点(如 '?‍?'.codePointAt(0)128104
  • index 恰好落在低位代理位置(如 '?‍?'.codePointAt(1)),则只返回该代理值(如 56349),不是完整码点 —— 所以建议始终从 0 开始遍历,并配合 String.fromCodePoint() 验证

安全遍历字符串的码点

直接用 for (let i = 0; i + codePointAt(i) 可能跳过代理对的第二部分。推荐结合 String.prototype[Symbol.iterator]() 或手动跳过低位代理:

  • 使用扩展运算符:[...str].map(ch => ch.codePointAt(0))(最简洁,兼容性需注意)
  • 手动遍历:for (let i = 0; i (因增补字符占两个 UTF-16 单元)

常见使用场景

校验 emoji 或生僻字:判断是否为合法图形符号(如 cp >= 0x1F600 && cp <= 0x1F64F
字符计数(非字节/UTF-16长度):如 '?‍?'.length === 2,但 [...str].length === 1
String.fromCodePoint() 配合实现编码/解码:如 String.fromCodePoint('?'.codePointAt(0)) === '?'

今天关于《String.codePointAt获取变量字符串的码点信息》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于的内容请关注golang学习网公众号!

资料下载
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>