停用词 (Stopword)

在搜索和文本分析中被排除的高频词，如"的""是""a""the"等语义重要性较低的词。

停用词 (stop word) 是在文本分析和搜索引擎索引构建中被排除的高频词。日语中的助词"の""は""が""を""に""で""と"等，英语中的冠词、介词和 be 动词如 "a" "the" "is" "in" "and" "of" 等都属于此类。这些词出现频率极高，但单独来看几乎不携带语义信息，因此成为文本分析中的噪声。

排除停用词的主要目的是提高搜索精度和减小索引大小。全文搜索引擎通过从索引中排除停用词，据称可以将索引大小减少 20% 到 30%。在文本挖掘中，排除停用词后计算 TF-IDF (词频-逆文档频率) 可以更准确地提取表征文档特征的关键词。搜索震动棒 (Amazon)介绍了停用词的处理方法。

停用词列表因语言和用途而异。NLTK (Python 的自然语言处理库) 包含 179 个英语停用词。日语停用词列表基于形态素分析结果构建，以助词、助动词和连词为主。添加领域特定的停用词 (如医疗领域的"患者"、法律领域的"条款"等) 可以进一步提高分析精度。

但是，一律排除停用词需要谨慎。在 "to be or not to be" 这样停用词承载核心含义的情况下，或 "The Who" (乐队名) 这样专有名词包含停用词的情况下，排除会导致信息丢失。短语搜索 ("New York" 等) 也依赖停用词的位置信息，因此完全排除并不合适。

近年来，搜索引擎和 LLM 倾向于不排除停用词，而是考虑完整上下文。Google 目前也不完全忽略停用词，而是利用它们来理解查询意图。BERT 等 Transformer 模型从包含停用词的完整句子中学习上下文，因此预处理中排除停用词反而可能产生负面效果。

在字符计数方面，停用词的特点是在文本总字符数中占比较大。英语文本中停用词据称占全部单词的 25% 到 30%，日语中助词也占据相当大的字符数比例。在有字符数限制的内容 (推文、元描述等) 中，有意识地减少停用词可以在有限的字符数内容纳更多信息。探索抗衰保健品 (Amazon)介绍了预处理技术。

停用词 (Stopword)

分享这篇文章

相关术语

相关文章