Unicode
一种通用字符编码标准,涵盖全球所有书写系统的 14 万多个字符。
Unicode 是一种国际字符编码标准,旨在用统一的体系表示世界上所有书写系统的字符。截至 2024 年,已收录超过 14 万个字符,包括表情符号。
在 Unicode 出现之前,不同地区使用不兼容的编码:日语用 Shift_JIS,中文用 GB2312,韩语用 KS X 1001。Unicode 将这些统一为一个系统。Unicode 标准参考书提供了规范的全面介绍。
Unicode 有多种编码形式:UTF-8 (可变长度,Web 标准)、UTF-16 (JavaScript 和 Java 内部使用) 和 UTF-32 (固定长度)。UTF-8 是 Web 上的主流编码。
使用 Unicode 进行字符计数需要注意代理对、组合字符和表情符号序列可能导致的差异。Unicode 编程书籍解释了如何正确处理这些边界情况。