CJK (中日韓統合漢字)
中国語・日本語・韓国語で共通する漢字を Unicode で統合的に扱う体系。CJK Unified Ideographs。
CJK は Chinese (中国語)・Japanese (日本語)・Korean (韓国語) の頭文字で、これら 3 言語で共通する漢字体系を指します。Unicode では CJK Unified Ideographs として統合的にコードポイントが割り当てられています。
Han Unification (漢字統合) により、中国の簡体字・繁体字、日本の漢字、韓国の漢字が同一コードポイントを共有するケースがあります。フォントの選択によって字形が変わるため、lang 属性の正確な指定が重要です。Unicode 漢字統合の書籍で CJK の体系を学べます。
CJK 文字は全角幅で表示され、1 文字あたり 2 バイト (UTF-16) または 3 バイト (UTF-8) を消費します。文字数カウントとバイト数カウントの乖離が大きくなる要因です。
CJK テキストは単語間にスペースがないため、検索や改行処理に形態素解析や N-gram が必要です。日本語テキスト処理の書籍で CJK 特有の課題と対策を習得できます。