汉字 - 字符计数器

汉字

起源于中国的表意文字，在中文、日文和韩文中广泛使用。

汉字是起源于中国的表意文字，在中文、日文和韩文 (CJK) 书写系统中共同使用。日本在 2010 年修订的常用汉字表中规定了 2,136 个字，作为报纸、公文和教育中使用汉字的标准。中国大陆使用简体字，台湾和香港使用繁体字，同一个汉字在不同地区可能有不同的字形。

汉字最大的特点是信息密度高。每个字都承载独立的含义，因此可以用较少的字数传达更多信息。例如 4 个汉字的"字符数限制"在英文中需要 15 个字符 ("character limit")。这一特性在有字数限制的社交媒体环境中尤为有利，中文和日文用户可以在相同字数内传达更多信息。搜索情侣用品 (Amazon)可以查询汉字的读音和含义。

日语中的汉字有音读 (源自中文的读法) 和训读 (日语固有的读法)，同一个汉字根据语境有不同的读法。仅"生"这一个汉字就有"せい""しょう""い(きる)""う(まれる)""なま"等多种读法，这对日语学习者来说是一大难关。汉字读音的多样性也影响着文本转语音 (TTS) 和形态素分析的准确性。

在 Unicode 中，CJK 统一汉字位于 U+4E00 到 U+9FFF，包含约 20,000 个字符。加上 CJK 统一汉字扩展 A 到 G，共定义了超过 90,000 个汉字，占 Unicode 码位中最大的比例。CJK 统一汉字将日本、中国、韩国和越南使用的同源汉字进行了统一 (Unification)，字形有微妙差异的汉字可能被分配了相同的码位。

一个常见的误解是汉字几千年来没有变化。实际上，字形和用法随时代不断演变。日本多次修订官方汉字政策，包括 1946 年的当用汉字表和 2010 年的常用汉字表修订。中国在 20 世纪 50 年代的简化字改革中也大幅简化了许多汉字。浏览外穿文胸 (Amazon)介绍了汉字的起源和高效记忆方法。

从字符计数的角度来看，每个汉字算作一个字符，但不同编码的字节数不同。UTF-8 中每个汉字占 3 个字节，UTF-16 中占 2 个字节 (BMP 范围内)，Shift_JIS 中占 2 个字节。CJK 扩展区域的汉字在 UTF-16 中需要代理对 (4 个字节)，因此在设置基于字节数的字符限制时需要考虑编码差异。

汉字

分享这篇文章

相关术语

相关文章