TF-IDF

Term Frequency-Inverse Document Frequency 的缩写。量化文档中词语重要性的方法。

TF-IDF (Term Frequency-Inverse Document Frequency) 是量化特定词语在文档集合中重要程度的方法。由 TF (词频) 和 IDF (逆文档频率) 的乘积计算得出。

TF 衡量词语在文档中的出现频率,IDF 衡量该词语在整个文档集合中的稀有程度。出现在许多文档中的常见词 IDF 低,仅出现在特定文档中的词 IDF 高。信息检索与自然语言处理书籍介绍了计算方法。

TF-IDF 是搜索引擎排名、文档分类、关键词提取和文档摘要等众多 NLP 任务的基础。

在字符计数中,TF-IDF 基于词语出现频率,文本的字符数和词数直接影响该指标。机器学习文本分析书籍提供了更多背景知识。