停用词 (Stopword)

在搜索和文本分析中被排除的高频词,如"的""是""a""the"等语义重要性较低的词。

停用词是在文本分析和搜索引擎索引构建中被排除的高频词。英语中常见的停用词包括"a""the""is""in",中文中的"的""是""了""在"也属于停用词。

移除停用词可以提高搜索精度并减小索引大小。但像"to be or not to be"这样的短语表明停用词也可能承载含义,因此一刀切的移除需要谨慎。搜索引擎原理书籍解释了停用词的处理策略。

现代搜索引擎和 LLM 倾向于保留停用词并考虑完整上下文,而不是简单移除。Google 目前也不再完全忽略停用词。

在文本挖掘和 TF-IDF 计算中,停用词移除仍然是重要的预处理步骤。文本挖掘入门书籍介绍了预处理技术。