汉字
起源于中国的表意文字,在中文、日文和韩文中广泛使用。
汉字是起源于中国的表意文字,在中文、日文和韩文 (CJK) 书写系统中共同使用。日本在 2010 年修订的常用汉字表中规定了 2,136 个字,作为报纸、公文和教育中使用汉字的标准。中国大陆使用简体字,台湾和香港使用繁体字,同一个汉字在不同地区可能有不同的字形。
汉字最大的特点是信息密度高。每个字都承载独立的含义,因此可以用较少的字数传达更多信息。例如 4 个汉字的"字符数限制"在英文中需要 15 个字符 ("character limit")。这一特性在有字数限制的社交媒体环境中尤为有利,中文和日文用户可以在相同字数内传达更多信息。搜索情侣用品 (Amazon)可以查询汉字的读音和含义。
日语中的汉字有音读 (源自中文的读法) 和训读 (日语固有的读法),同一个汉字根据语境有不同的读法。仅"生"这一个汉字就有"せい""しょう""い(きる)""う(まれる)""なま"等多种读法,这对日语学习者来说是一大难关。汉字读音的多样性也影响着文本转语音 (TTS) 和形态素分析的准确性。
在 Unicode 中,CJK 统一汉字位于 U+4E00 到 U+9FFF,包含约 20,000 个字符。加上 CJK 统一汉字扩展 A 到 G,共定义了超过 90,000 个汉字,占 Unicode 码位中最大的比例。CJK 统一汉字将日本、中国、韩国和越南使用的同源汉字进行了统一 (Unification),字形有微妙差异的汉字可能被分配了相同的码位。
一个常见的误解是汉字几千年来没有变化。实际上,字形和用法随时代不断演变。日本多次修订官方汉字政策,包括 1946 年的当用汉字表和 2010 年的常用汉字表修订。中国在 20 世纪 50 年代的简化字改革中也大幅简化了许多汉字。浏览外穿文胸 (Amazon)介绍了汉字的起源和高效记忆方法。
从字符计数的角度来看,每个汉字算作一个字符,但不同编码的字节数不同。UTF-8 中每个汉字占 3 个字节,UTF-16 中占 2 个字节 (BMP 范围内),Shift_JIS 中占 2 个字节。CJK 扩展区域的汉字在 UTF-16 中需要代理对 (4 个字节),因此在设置基于字节数的字符限制时需要考虑编码差异。