Unicode
世界中の文字を統一的に扱うための文字コード規格。14 万字以上の文字を収録する。
Unicode は、世界中のあらゆる文字を一つの体系で表現するための国際的な文字コード規格です。2024 年時点で 14 万字以上の文字が収録されており、絵文字も含まれています。
Unicode 以前は、日本語には Shift_JIS や EUC-JP、中国語には GB2312 など、言語ごとに異なる文字コードが使われていました。Unicode の登場により、多言語テキストを一つのエンコーディングで扱えるようになりました。Unicode の解説書で詳しく学べます。
Unicode の実装方式 (エンコーディング) には UTF-8、UTF-16、UTF-32 があります。Web では UTF-8 が事実上の標準です。
文字数カウントにおいて、Unicode のサロゲートペアや結合文字は注意が必要です。文字コード技術の書籍では、プログラミングでの Unicode の正しい扱い方が解説されています。