コードポイント

Unicode で各文字に割り当てられた一意の番号。U+0041 (A) のように U+ に続く 16 進数で表記する。

コードポイントとは、Unicode 規格で各文字に割り当てられた一意の番号です。U+0041 (ラテン大文字 A)、U+3042 (ひらがな あ) のように、U+ に続く 16 進数で表記されます。

Unicode は 0 から 10FFFF まで約 110 万のコードポイントを定義可能で、2024 年時点で約 15 万文字が割り当てられています。Unicode 規格の解説書でコードポイントの体系を学べます。

JavaScript では String.codePointAt() でコードポイントを取得でき、String.fromCodePoint() でコードポイントから文字を生成できます。

1 つのコードポイントが必ずしも 1 つの「見える文字」に対応するわけではありません。結合文字や絵文字シーケンスでは複数のコードポイントで 1 つの書記素クラスタを構成します。プログラミングと Unicode の書籍で正確な文字処理を学べます。