登录
首页 >  文章 >  前端

如何通过HTML的TextEncoder的encode方法将字符串编码为Uint8Array字节

时间:2026-05-03 14:00:28 125浏览 收藏

今天golang学习网给大家带来了《如何通过HTML的TextEncoder的encode方法将字符串编码为Uint8Array字节》,其中涉及到的知识点包括等等,无论你是小白还是老手,都适合看一看哦~有好的建议也欢迎大家在评论留言,若是看完有所收获,也希望大家能多多点赞支持呀!一起加油学习~

TextEncoder.encode()返回Uint8Array格式的UTF-8字节序列,非Unicode码点;如'中'编码为[0xE4, 0xB8, 0xAD],严格遵循UTF-8规则,仅支持'utf-8'编码。

如何通过HTML的TextEncoder的encode方法将字符串编码为Uint8Array字节

TextEncoder.encode() 返回的 Uint8Array 是 UTF-8 编码字节,不是字符码点

很多人误以为 TextEncoder.encode() 是把字符串“转成 ASCII”或“取 charCodeAt”,其实它严格按 UTF-8 规则编码。比如中文字符 '中' 的 Unicode 码点是 U+4E2D,但 encoder.encode('中') 返回的是长度为 3 的 Uint8Array[0xE4, 0xB8, 0xAD] —— 这才是 UTF-8 字节序列。

常见错误现象:

  • for...of 遍历结果后直接当成 Latin-1 或 ASCII 处理,导致乱码
  • 误把 Uint8Array[0] 当作首字符的 Unicode 码点(实际只是 UTF-8 第一字节)
  • 在需要原始字节流的场景(如 WebCrypto、fetch body、WebSocket binary)中,没确认后端是否也按 UTF-8 解码

必须指定 encoding 参数?不,TextEncoder 只支持 UTF-8

TextEncoder 构造函数签名是 new TextEncoder(label?, options?),但规范强制只接受 'utf-8'(大小写不敏感),其他值(如 'utf16''gbk')会抛出 TypeError: The encoding label provided ('xxx') is invalid.

所以:

  • new TextEncoder()new TextEncoder('utf-8') 效果完全一样
  • 想处理 GBK、Shift-JIS 等编码,不能用 TextEncoder,得用第三方库(如 iconv-lite)或 TextDecoder 配合 fetchresponse.arrayBuffer() 手动转换
  • 浏览器环境没有 TextEncoder('utf-16le') 这种用法,别试

空字符串、BOM、控制字符的编码行为

TextEncoder.encode() 对边界情况很“老实”:不加 BOM,不忽略控制字符,也不做任何归一化。

  • encoder.encode('')Uint8Array(0) [](空数组,长度为 0)
  • encoder.encode('\uFEFF')(BOM 字符)→ Uint8Array(3) [0xEF, 0xBB, 0xBF],即原样编码为 3 字节
  • encoder.encode('\0\t\n\r') → 分别编码为 [0x00, 0x09, 0x0A, 0x0D],和 C 风格字符串一致
  • 遇到代理对(surrogate pair)如 '\uD83D\uDE00'(?),会正确编码为 4 字节 [0xF0, 0x9F, 0x98, 0x80],不是报错也不是截断

和 String.prototype.charCodeAt() / codePointAt() 的关键区别

这是最容易混淆的点:两者目的不同,输出单位不同,不能互相替代。

  • 'a'.charCodeAt(0)97(UTF-16 code unit,16 位整数)
  • 'a'.codePointAt(0)97(Unicode code point,对 BMP 字符和 charCodeAt 相同)
  • new TextEncoder().encode('a')[0]97(巧合相同,因为 'a' 的 UTF-8 编码就是单字节 0x61)
  • new TextEncoder().encode('€')[0]226(0xE2),而 '€'.codePointAt(0)8364(0x20AC)—— 完全不同量纲

如果你要拼接二进制协议头、计算加密摘要、或写入 Blob,必须用 encode();如果只是提取字符序号或做简单映射,用 codePointAt() 更直接。

真正容易被忽略的是:Uint8Array 是视图,底层 ArrayBuffer 一旦被其他操作(如 slice()subarray())共享或转移,原始引用可能失效 —— 尤其在传递给 crypto.subtle.digest()fetch() 前,确认你传的是完整、未被切片的副本,或者明确调用 .slice() 获取独立拷贝。

好了,本文到此结束,带大家了解了《如何通过HTML的TextEncoder的encode方法将字符串编码为Uint8Array字节》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多文章知识!

相关阅读
更多>
最新阅读
更多>
课程推荐
更多>