ストップワード

検索やテキスト分析で除外される頻出語。「の」「は」「a」「the」など意味的に重要度の低い語。

ストップワード (stop word) は、テキスト分析や検索エンジンのインデックス作成で除外される頻出語です。日本語では「の」「は」「が」「を」、英語では "a" "the" "is" "in" などが該当します。

ストップワードを除外することで、検索精度の向上やインデックスサイズの削減が期待できます。ただし、"to be or not to be" のようにストップワードが意味を持つケースもあるため、一律除外は注意が必要です。検索エンジンの仕組みの書籍でストップワードの扱いを学べます。

近年の検索エンジンや LLM はストップワードを除外せず、文脈全体を考慮する傾向にあります。Google も現在はストップワードを完全には無視しません。

テキストマイニングや TF-IDF 計算では、ストップワードの除外が前処理として依然重要です。テキストマイニング入門の書籍で前処理の手法を習得できます。