文字種
テキストを構成する文字の分類。ひらがな、カタカナ、漢字、英字、数字、記号などのカテゴリに分けられ、入力バリデーションや文章分析の基本単位となる。
文字種 (character type) は、テキスト中の文字をその性質に基づいて分類したカテゴリです。日本語のテキストは世界でも特に多様な文字種を含み、ひらがな、カタカナ、漢字、全角英数字、半角英数字、全角記号、半角記号が 1 つの文章の中に混在します。この多様性が日本語テキスト処理の複雑さの根源です。
Unicode では文字種を「General Category」プロパティで分類しています。大分類として Letter (文字)、Mark (結合記号)、Number (数字)、Punctuation (約物)、Symbol (記号)、Separator (区切り)、Other (その他) の 7 種があり、さらに小分類に細分化されます。日本語の漢字は「Lo」(Letter, other)、ひらがなも「Lo」に分類されるため、Unicode のカテゴリだけでは漢字とひらがなを区別できません。
日本語の文字種判定には Unicode のブロック (コードポイントの範囲) を使います。ひらがなは U+3040〜U+309F、カタカナは U+30A0〜U+30FF、CJK 統合漢字は U+4E00〜U+9FFF が基本範囲です。正規表現では /[\u3040-\u309F]/ でひらがな、/[\u30A0-\u30FF]/ でカタカナを判定できます。ただし、拡張領域 (カタカナ拡張 A、CJK 統合漢字拡張 A〜G) も考慮すると範囲はさらに広がります。
フォームのバリデーションでは、文字種の制限が頻繁に使われます。「全角カタカナのみ」(氏名のフリガナ)、「半角英数字のみ」(パスワード)、「数字のみ」(電話番号) といった制約です。日本語特有の問題として、全角数字「123」と半角数字「123」の混在、カタカナの全角「カ」と半角「カ」の混在があり、バリデーション前に正規化 (全角→半角変換など) を行うのが一般的です。
文章分析では、文字種の比率がテキストの特性を示す指標になります。漢字の比率が高い文章は情報密度が高く硬い印象を与え、ひらがなの比率が高い文章は柔らかく読みやすい印象を与えます。一般的に、読みやすい日本語の文章は漢字 30%、ひらがな 70% 程度の比率が目安とされています。
文字数カウントツールの高度な機能として、文字種別のカウントがあります。入力テキストに含まれるひらがな、カタカナ、漢字、英字、数字、記号の各文字数を個別に表示することで、文章のバランスを可視化できます。レポートや論文の執筆では、漢字率が高すぎないか、カタカナ語が多すぎないかを確認する指標として活用されます。