エントロピー (情報量)
情報理論における不確実性の尺度。テキストのエントロピーが高いほど予測が困難で圧縮しにくく、低いほど冗長で圧縮しやすい。
エントロピー (entropy) は、クロード・シャノンが 1948 年に提唱した情報理論の中核概念です。テキストにおけるエントロピーは「次の文字がどれだけ予測しにくいか」を数値化したもので、単位はビット/文字です。エントロピーが高いテキストは情報密度が高く、低いテキストは冗長性が高いことを意味します。
英語テキストのエントロピーは約 1.0〜1.5 ビット/文字と推定されています。アルファベット 26 文字が等確率で出現するなら log₂(26) ≈ 4.7 ビット/文字ですが、実際には「e」が最頻出で「z」はほとんど出現しないという偏りがあり、さらに「th」「ing」「tion」のような頻出パターンがあるため、実効的なエントロピーは大幅に低くなります。
日本語テキストのエントロピーは英語より高いとされています。漢字だけでも数千種類が使われ、ひらがな、カタカナ、英数字が混在するため、次の文字の予測が英語より困難です。ただし、日本語は 1 文字あたりの情報量が英語より多い (漢字 1 文字で英単語数文字分の意味を表せる) ため、同じ内容を伝えるのに必要な文字数は日本語の方が少なくなります。
エントロピーとテキスト圧縮は直結しています。シャノンの情報源符号化定理により、テキストの圧縮限界はエントロピーで決まります。エントロピーが 1.5 ビット/文字のテキストは、理論上 1 文字あたり 1.5 ビットまで圧縮できます。ASCII の 1 文字 = 8 ビットと比較すると、約 81% の圧縮率が理論的な上限です。gzip や Brotli はこの理論限界に近い圧縮を実現しています。
パスワードの強度評価にもエントロピーが使われます。8 文字の英小文字パスワードのエントロピーは log₂(26⁸) ≈ 37.6 ビット、英大小文字+数字+記号 (95 種) なら log₂(95⁸) ≈ 52.6 ビットです。NIST のガイドラインでは、オンラインサービスのパスワードに最低 30 ビット以上のエントロピーを推奨しています。文字数を増やすか文字種を増やすかでエントロピーを高められますが、文字数を増やす方が効果的です。
文字数カウントとの関連では、エントロピーは「同じ文字数でどれだけの情報を伝えられるか」の理論的な指標です。280 文字の Twitter 投稿でも、定型的な挨拶文 (低エントロピー) と専門的な技術解説 (高エントロピー) では、伝達される情報量が大きく異なります。文字数制限のある媒体で情報量を最大化するには、冗長な表現を排除してエントロピーを高めることが有効です。