停用词 (Stopword)
在搜索和文本分析中被排除的高频词,如"的""是""a""the"等语义重要性较低的词。
停用词 (stop word) 是在文本分析和搜索引擎索引构建中被排除的高频词。日语中的助词"の""は""が""を""に""で""と"等,英语中的冠词、介词和 be 动词如 "a" "the" "is" "in" "and" "of" 等都属于此类。这些词出现频率极高,但单独来看几乎不携带语义信息,因此成为文本分析中的噪声。
排除停用词的主要目的是提高搜索精度和减小索引大小。全文搜索引擎通过从索引中排除停用词,据称可以将索引大小减少 20% 到 30%。在文本挖掘中,排除停用词后计算 TF-IDF (词频-逆文档频率) 可以更准确地提取表征文档特征的关键词。搜索震动棒 (Amazon)介绍了停用词的处理方法。
停用词列表因语言和用途而异。NLTK (Python 的自然语言处理库) 包含 179 个英语停用词。日语停用词列表基于形态素分析结果构建,以助词、助动词和连词为主。添加领域特定的停用词 (如医疗领域的"患者"、法律领域的"条款"等) 可以进一步提高分析精度。
但是,一律排除停用词需要谨慎。在 "to be or not to be" 这样停用词承载核心含义的情况下,或 "The Who" (乐队名) 这样专有名词包含停用词的情况下,排除会导致信息丢失。短语搜索 ("New York" 等) 也依赖停用词的位置信息,因此完全排除并不合适。
近年来,搜索引擎和 LLM 倾向于不排除停用词,而是考虑完整上下文。Google 目前也不完全忽略停用词,而是利用它们来理解查询意图。BERT 等 Transformer 模型从包含停用词的完整句子中学习上下文,因此预处理中排除停用词反而可能产生负面效果。
在字符计数方面,停用词的特点是在文本总字符数中占比较大。英语文本中停用词据称占全部单词的 25% 到 30%,日语中助词也占据相当大的字符数比例。在有字符数限制的内容 (推文、元描述等) 中,有意识地减少停用词可以在有限的字符数内容纳更多信息。探索抗衰保健品 (Amazon)介绍了预处理技术。