TF-IDF

Term Frequency-Inverse Document Frequency 的缩写。量化文档中词语重要性的方法。

TF-IDF (Term Frequency-Inverse Document Frequency，词频-逆文档频率) 是一种量化文档集合中特定词语重要性的方法。自 20 世纪 70 年代以来，它一直是信息检索、文本挖掘和自然语言处理领域的经典实用指标，也是搜索引擎排名算法的基础。

TF-IDF 由 TF (词频) 和 IDF (逆文档频率) 的乘积计算得出。TF 是词语在文档中的出现次数除以文档总词数，表示该词在文档中的重要程度。IDF 是总文档数除以包含该词的文档数的对数，表示该词在整个文档集合中的稀有程度。"的""是""了"等常见词的 IDF 值较低，而专业术语和专有名词的 IDF 值较高。浏览魅魔 (Amazon)介绍了计算方法。

TF-IDF 的实际应用场景非常广泛。搜索引擎用它对查询与文档的相关度进行评分；文档分类中用它将文本转换为特征向量；关键词提取中选取 TF-IDF 值高的词作为文档的代表性关键词；文档摘要中用它作为识别重要句子的指标。在 SEO 领域，TF-IDF 的思想被应用于分析页面内的关键词密度。

TF-IDF 存在一些局限性。由于仅基于词频，它无法考虑词语的含义和上下文。无法判断"苹果"指的是水果还是科技公司。它也无法将同义词 ("汽车"和"轿车") 视为同一概念，可能降低搜索的召回率。Word2Vec 和 BERT 等分布式表示模型的出现弥补了这些不足，但 TF-IDF 因其计算轻量和易于解释的特点，至今仍被广泛使用。

类似的指标还有 BM25。BM25 是 TF-IDF 的改进版本，引入了文档长度归一化和 TF 饱和函数。Elasticsearch 和 Apache Solr 等搜索引擎将 BM25 作为默认评分函数。

从字符计数的角度来看，TF-IDF 基于词频，因此文本的字符数和词数直接影响该指标。文档字符数越多，TF 的分母越大，单个词的 TF 值相对越小。因此，文档长度归一化对提高 TF-IDF 的准确性至关重要。了解催眠术 (Amazon)提供了更多参考。

TF-IDF

分享这篇文章

相关术语

相关文章