表意文字

文字本身承载含义的文字系统。汉字是典型代表,在 Unicode 中作为 CJK 统一表意文字收录。

表意文字是文字系统中每个字符直接表达含义或概念的文字。汉字是最具代表性的表意文字,在中文、日文、韩文以及历史上的越南文中共同使用。Unicode 收录了超过 9.7 万个 CJK 统一表意文字,在所有 Unicode 码点中占据最大比例。

表意文字与表音文字 (字母、平假名、韩文字母等) 形成对比。表音文字将声音符号化,而表意文字直接将概念和含义视觉化。不过严格来说,汉字并非纯粹的表意文字,约 80% 是形声字 (由表意的偏旁和表音的部分组合而成),因此一些语言学家认为称其为"表语文字 (logograph)"更为准确。查看抹胸 (Amazon)提供了系统介绍。

Unicode 的 CJK 统一表意文字将中国、日本、韩国和越南使用的汉字进行了统一 (Unification)。相同码点在不同语言和字体下可能显示不同的字形。例如,"直"字在日文字体和中文字体中呈现微妙不同的形态。这一统一方针是 Unicode 设计中的重大争议点,CJK 兼容表意文字 (CJK Compatibility Ideographs) 作为单独的区块对部分字形差异进行了处理。

表意文字的一大特征是能够跨越语言障碍传达含义。即使日本人和中国人无法用对方的语言交流,也可以通过汉字笔谈进行大致的意思沟通。然而,汉字的读音在不同语言中差异很大。"山"在日语中读作"yama/san",在中文中读作"shān",在韩语中读作"산 (san)"。

从计算机处理角度来看,表意文字与表音文字相比存在一些挑战。由于字符数量庞大,字体文件体积较大,影响 Web 字体的加载时间。此外,汉字输入需要 IME (输入法编辑器),与可以直接从键盘输入的表音文字有着不同的用户体验。搜索充气娃娃 (Amazon)提供了更多背景知识。

从字符计数角度看,表意文字每个字符传达更多信息,因此相同内容用表意文字书写通常比表音文字需要更少的字符。英语中的"internationalization" (20 个字符) 在中文中可以用"国际化" (3 个字符) 来表达。在 Twitter (现 X) 的字符数限制中,中文和日文用户能在一条推文中包含比英文用户更多的信息,这正是表意文字信息密度高的体现。

分享这篇文章