表意文字
文字自体が意味を持つ文字体系。漢字が代表例で、CJK 統合漢字として Unicode に収録されている。
表意文字とは、文字自体が意味や概念を表す文字体系です。漢字が最も代表的な表意文字であり、中国語、日本語、韓国語、ベトナム語 (歴史的) で共通して使用されてきました。Unicode では CJK 統合漢字 (CJK Unified Ideographs) として約 9 万 7 千字以上が収録されており、Unicode の全コードポイントの中で最大の割合を占めています。
表意文字は表音文字 (アルファベット、ひらがな、ハングルなど) と対比される概念です。表音文字が音を記号化するのに対し、表意文字は概念や意味を直接的に視覚化します。ただし、厳密には漢字は純粋な表意文字ではなく、形声文字 (意味を表す部首と音を表す部分の組み合わせ) が全体の約 80% を占めるため、「表語文字 (logograph)」と呼ぶ方が正確だとする言語学者もいます。漢字・文字学の書籍で体系的に学べます。
Unicode の CJK 統合漢字は、中国・日本・韓国・ベトナムで使われる漢字を統合 (ユニフィケーション) して収録しています。同じコードポイントでも言語やフォントによって字形が異なる場合があります。たとえば「直」という字は、日本語フォントと中国語フォントで微妙に異なる字形で表示されます。この統合方針は Unicode の設計上の大きな議論点であり、CJK 互換漢字 (CJK Compatibility Ideographs) という別ブロックで一部の字形差異に対応しています。
表意文字の大きな特徴は、言語の壁を越えた意味の伝達が可能な点です。日本人と中国人が互いの言語を話せなくても、漢字の筆談でおおまかな意思疎通ができるのはこの性質によるものです。一方で、漢字の読み方は言語ごとに大きく異なります。「山」は日本語で「やま/さん」、中国語で「shān」、韓国語で「산 (san)」と発音されます。
コンピュータ処理の観点では、表意文字は表音文字と比べていくつかの課題があります。文字数が膨大なためフォントファイルのサイズが大きくなり、Web フォントの読み込み時間に影響します。また、漢字の入力には IME (入力メソッド) が必要であり、キーボードから直接入力できる表音文字とは異なるユーザー体験になります。CJK 文字とコンピュータの書籍も参考になります。
文字数カウントの観点では、表意文字は 1 文字で多くの情報を伝えられるため、同じ内容を表音文字で書くよりも文字数が少なくなる傾向があります。英語で「internationalization」(20 文字) と書く内容は、日本語では「国際化」(3 文字) で表現できます。Twitter (現 X) の文字数制限において、日本語や中国語のユーザーが英語ユーザーより多くの情報を 1 投稿に含められるのは、表意文字の情報密度の高さによるものです。