書記素クラスタ
人間が 1 文字と認識する最小の表示単位。複数のコードポイントで構成されることがある。
書記素クラスタ (Grapheme Cluster) とは、人間が視覚的に 1 文字と認識する最小の表示単位です。1 つの書記素クラスタは 1 つまたは複数の Unicode コードポイントで構成されます。
たとえば「が」は「か」(U+304B) と濁点 (U+3099) の 2 つのコードポイントで構成される場合があります。また、国旗絵文字 🇯🇵 は 2 つの Regional Indicator コードポイントの組み合わせです。Unicode テキスト処理の書籍で書記素クラスタの詳細を学べます。
正確な「見た目の文字数」を数えるには、コードポイント数ではなく書記素クラスタ数を数える必要があります。JavaScript では Intl.Segmenter API を使って書記素単位の分割が可能です。
文字数カウントツールが正確であるためには、書記素クラスタを正しく扱うことが不可欠です。国際化プログラミングの書籍でも書記素クラスタは重要なトピックです。