漢字
中国で生まれた表意文字。日本語では常用漢字 2,136 字が日常的に使用される。
漢字は中国で生まれた表意文字で、日本語・中国語・韓国語 (CJK) で共通して使用される文字体系です。日本では 2010 年に改定された常用漢字表で 2,136 字が定められており、新聞、公文書、教育の場で使用される漢字の基準となっています。中国大陸では簡体字、台湾・香港では繁体字が使われ、同じ漢字でも地域によって字形が異なります。
漢字の最大の特徴は情報密度の高さです。1 文字で独立した意味を持つため、少ない文字数で多くの情報を伝えられます。たとえば「文字数制限」という 4 文字の漢字語は、英語では "character limit" (15 文字) に相当します。この特性は SNS の文字数制限がある環境で特に有利に働き、日本語や中国語のユーザーは同じ文字数でより多くの情報を発信できます。漢字辞典で漢字の読みや意味を調べられます。
漢字には音読み (中国語由来の読み) と訓読み (日本語固有の読み) があり、同じ漢字でも文脈によって読み方が変わります。「生」という漢字だけでも「せい」「しょう」「い(きる)」「う(まれる)」「なま」など多数の読みがあり、日本語学習者にとって大きな壁となっています。漢字の読みの多様性は、テキスト読み上げ (TTS) や形態素解析の精度にも影響を与えます。
Unicode では CJK 統合漢字として U+4E00〜U+9FFF に約 20,000 字が収録されています。CJK 統合漢字拡張 A〜G を含めると 90,000 字以上が定義されており、Unicode のコードポイントの中で最大の割合を占めています。CJK 統合漢字は、日本・中国・韓国・ベトナムで使われる同一起源の漢字を統合 (ユニフィケーション) したもので、字形の微妙な違いがあっても同じコードポイントが割り当てられている場合があります。
よくある誤解として、漢字は数千年間変化していないという認識がありますが、実際には時代とともに字形や用法が変遷しています。日本では 1946 年の当用漢字表、2010 年の常用漢字表改定など、公的な漢字政策が繰り返し行われてきました。中国でも 1950 年代の簡体字改革により、多くの漢字が簡略化されています。漢字学習の書籍では漢字の成り立ちや効率的な覚え方も紹介されています。
文字数カウントの観点では、漢字は 1 文字としてカウントされますが、エンコーディングによってバイト数が異なります。UTF-8 では 1 文字あたり 3 バイト、UTF-16 では 2 バイト (BMP 内の場合)、Shift_JIS では 2 バイトを消費します。CJK 拡張領域の漢字は UTF-16 でサロゲートペア (4 バイト) が必要になるため、バイト数ベースの文字数制限を設ける際にはエンコーディングの違いを考慮する必要があります。