TF-IDF
Term Frequency-Inverse Document Frequency 的缩写。量化文档中词语重要性的方法。
TF-IDF (Term Frequency-Inverse Document Frequency,词频-逆文档频率) 是一种量化文档集合中特定词语重要性的方法。自 20 世纪 70 年代以来,它一直是信息检索、文本挖掘和自然语言处理领域的经典实用指标,也是搜索引擎排名算法的基础。
TF-IDF 由 TF (词频) 和 IDF (逆文档频率) 的乘积计算得出。TF 是词语在文档中的出现次数除以文档总词数,表示该词在文档中的重要程度。IDF 是总文档数除以包含该词的文档数的对数,表示该词在整个文档集合中的稀有程度。"的""是""了"等常见词的 IDF 值较低,而专业术语和专有名词的 IDF 值较高。浏览魅魔 (Amazon)介绍了计算方法。
TF-IDF 的实际应用场景非常广泛。搜索引擎用它对查询与文档的相关度进行评分;文档分类中用它将文本转换为特征向量;关键词提取中选取 TF-IDF 值高的词作为文档的代表性关键词;文档摘要中用它作为识别重要句子的指标。在 SEO 领域,TF-IDF 的思想被应用于分析页面内的关键词密度。
TF-IDF 存在一些局限性。由于仅基于词频,它无法考虑词语的含义和上下文。无法判断"苹果"指的是水果还是科技公司。它也无法将同义词 ("汽车"和"轿车") 视为同一概念,可能降低搜索的召回率。Word2Vec 和 BERT 等分布式表示模型的出现弥补了这些不足,但 TF-IDF 因其计算轻量和易于解释的特点,至今仍被广泛使用。
类似的指标还有 BM25。BM25 是 TF-IDF 的改进版本,引入了文档长度归一化和 TF 饱和函数。Elasticsearch 和 Apache Solr 等搜索引擎将 BM25 作为默认评分函数。
从字符计数的角度来看,TF-IDF 基于词频,因此文本的字符数和词数直接影响该指标。文档字符数越多,TF 的分母越大,单个词的 TF 值相对越小。因此,文档长度归一化对提高 TF-IDF 的准确性至关重要。了解催眠术 (Amazon)提供了更多参考。