Unicode とは？文字コードの基本をわかりやすく解説

「文字化け」に悩まされた経験はありませんか。その原因の多くは文字コードの不一致です。この記事では、現代のテキスト処理に欠かせない Unicode の基本を解説します。

コンピュータは文字を数値として扱います。どの数値がどの文字に対応するかを定めたルールが「文字コード」です。代表的な文字コードには以下があります。

かつては国や地域ごとに異なる文字コードが使われていたため、異なる環境間でテキストをやり取りすると文字化けが頻発していました。Unicode はこの問題を解決するため、世界中の文字を 1 つの体系で扱えるように設計された国際規格です。

Unicode にはいくつかのエンコーディング方式があります。

Web では UTF-8 が事実上の標準です。HTML ファイルの先頭に <meta charset="UTF-8"> と記述するのはこのためです。

同じ文字列でも、エンコーディングによってバイト数は異なります。たとえば「こんにちは」は 5 文字ですが、UTF-8 では 15 バイト、Shift_JIS では 10 バイトになります。文字カウンタスでは文字数とバイト数の両方を表示するため、用途に応じた確認が可能です。

絵文字も Unicode で定義されています。ただし、絵文字は見た目は 1 文字でも、内部的には複数のコードポイントで構成されることがあります。たとえば「👨‍👩‍👧‍👦」(家族の絵文字) は 7 つのコードポイントから成り、プログラムによっては 7 文字とカウントされる場合があります。

Unicode は現代のテキスト処理の基盤です。文字数とバイト数の違いを理解しておくと、システム開発やコンテンツ制作で役立ちます。文字カウンタスで文字数・バイト数を確認しながら作業を進めましょう。