TF-IDF

Term Frequency-Inverse Document Frequency の略。文書内での単語の重要度を数値化する手法。

TF-IDF (Term Frequency-Inverse Document Frequency) は、文書集合の中で特定の単語がどれだけ重要かを数値化する手法です。TF (単語頻度) と IDF (逆文書頻度) の積で算出されます。

TF は文書内での単語の出現頻度、IDF はその単語が文書集合全体でどれだけ珍しいかを示します。多くの文書に出現する一般的な単語は IDF が低く、特定の文書にのみ出現する単語は IDF が高くなります。情報検索と自然言語処理の書籍で計算方法を学べます。

TF-IDF は検索エンジンのランキング、文書分類、キーワード抽出、文書要約など幅広い NLP タスクの基礎として使われています。

文字数カウントの観点では、TF-IDF は単語の出現回数 (頻度) に基づくため、テキストの文字数や単語数が直接的に影響する指標です。機械学習とテキストの書籍も参考になります。