什么是 Unicode？

Unicode（万国码/统一码）是一种计算机行业标准，旨在为世界上几乎所有的文字系统提供唯一的数字标识。在 Unicode 出现之前，存在着成百上千种不同的编码系统（如 ASCII、GB2312、Big5 等），由于编码不统一，在不同语言环境之间传输文档时经常会出现乱码。Unicode 的出现从根本上解决了这一问题，它为每一个字符、Emoji 甚至特殊的控制符号都分配了一个唯一的码点（Code Point）。

常见的字符编码格式

Unicode 转义 (\uXXXX)： 常用于 JavaScript、Java、Python 等编程语言的源代码中。例如，汉字“你”的 Unicode 转义符是 \u4f60。
HTML 实体 (&#xXXXX;)： 用于网页开发。当某些字符无法在网页中直接显示（或为了避免 HTML 注入）时，可以使用这种格式。例如 😀 表示 😀。
UTF-8： Unicode 的一种可变长度字符编码。它是目前互联网上应用最广泛的编码，因为它在兼容 ASCII 的同时，能极其高效地表示多国语言。
Base64： 虽然 Base64 本身不是字符编码，但它常用于将二进制数据（或 Unicode 字符串）转换为纯文本格式，以便在不支持特殊字符的协议（如 Email）中传输。

如何使用本工具进行调试？

1. 修复乱码： 如果您在代码中看到类似 \u6b22\u8fce 这样的字符串，将其粘贴到输入框，工具会自动还原为“欢迎”。

2. 获取 Emoji 编码： 想要在网页或应用中使用特定 Emoji？直接粘贴 Emoji 即可获取它的码点及 HTML 实体代码。

3. 编码分析： 字符详情区域会拆解每一个字符。对于开发者来说，这对于调试某些不可见字符（如零宽空格 ZWSP）或区分长相相似的符号非常有帮助。

开发者提示

在处理 Unicode 时，请注意“码元”与“码点”的区别。在 JavaScript 中，length 属性返回的是码元数量，对于超出基本多语言平面（BMP）的字符（如大部分 Emoji），一个字符可能占两个码元长度。本工具采用的是现代 ECMAScript 规范，能正确识别并处理所有平面的码点。