CJK (中日韩统一表意文字)
在 Unicode 中统一处理中文、日文、韩文共用汉字的体系,即 CJK Unified Ideographs。
CJK 是 Chinese (中文)、Japanese (日文)、Korean (韩文) 的首字母缩写,指这三种语言共用的表意文字体系。在 Unicode 中,通过汉字统一 (Han Unification) 将它们分配为 CJK 统一表意文字。
汉字统一意味着简体中文、繁体中文、日本汉字和韩国汉字可能共享同一码位。显示的字形取决于字体,因此 lang 属性的准确指定至关重要。Unicode CJK 统一书籍解释了这一体系。
CJK 字符以全角宽度显示,每个字符占用 2 字节 (UTF-16) 或 3 字节 (UTF-8),导致字符数和字节数之间存在较大差异。
CJK 文本词与词之间没有空格,搜索和换行处理需要形态素分析或 N-gram。CJK 文本处理书籍介绍了语言特有的挑战和解决方案。