TF-IDF
Tần suất thuật ngữ-Tần suất tài liệu nghịch đảo. Phương pháp định lượng tầm quan trọng của từ trong tài liệu.
TF-IDF (Term Frequency-Inverse Document Frequency) là phương pháp định lượng mức độ quan trọng của một từ cụ thể trong tập hợp tài liệu. Đây là chỉ số kinh điển và thực tế trong truy xuất thông tin, khai phá văn bản và xử lý ngôn ngữ tự nhiên từ những năm 1970, và được biết đến rộng rãi như nền tảng của thuật toán xếp hạng công cụ tìm kiếm.
TF-IDF được tính là tích của TF (Tần suất thuật ngữ) và IDF (Tần suất tài liệu nghịch đảo). TF là số lần một từ xuất hiện trong tài liệu chia cho tổng số từ, chỉ ra tầm quan trọng của từ trong tài liệu đó. IDF là logarit của tổng số tài liệu chia cho số tài liệu chứa từ đó, chỉ ra độ hiếm của từ trong toàn bộ tập hợp. Các từ phổ biến như "the," "is," và "a" có giá trị IDF thấp, trong khi thuật ngữ chuyên môn và danh từ riêng có giá trị IDF cao. Sách truy xuất thông tin và NLP đề cập đến phương pháp tính toán.
TF-IDF có nhiều ứng dụng thực tế đa dạng. Công cụ tìm kiếm sử dụng nó để chấm điểm mức độ liên quan giữa truy vấn và tài liệu. Trong phân loại tài liệu, nó chuyển đổi văn bản thành vector đặc trưng. Để trích xuất từ khóa, các từ có giá trị TF-IDF cao được chọn làm từ khóa đại diện. Trong tóm tắt tài liệu, nó đóng vai trò chỉ số để xác định câu quan trọng. Trong SEO, khái niệm TF-IDF được áp dụng để phân tích mật độ từ khóa trong trang.
TF-IDF có một số hạn chế. Vì chỉ dựa vào tần suất từ, nó không thể xem xét ý nghĩa hoặc ngữ cảnh của từ. Nó không thể xác định "bank" chỉ tổ chức tài chính hay bờ sông. Nó cũng không thể coi từ đồng nghĩa ("car" và "automobile") là cùng khái niệm, có thể giảm khả năng thu hồi tìm kiếm. Các mô hình biểu diễn phân tán như Word2Vec và BERT được phát triển để giải quyết các hạn chế này, nhưng TF-IDF vẫn được sử dụng rộng rãi nhờ hiệu quả tính toán và khả năng diễn giải.
Một chỉ số liên quan là BM25, phiên bản cải tiến của TF-IDF giới thiệu chuẩn hóa độ dài tài liệu và hàm bão hòa TF. Các công cụ tìm kiếm như Elasticsearch và Apache Solr sử dụng BM25 làm hàm chấm điểm mặc định.
Từ góc độ đếm ký tự, TF-IDF bị ảnh hưởng trực tiếp bởi số ký tự văn bản và số từ vì dựa trên tần suất từ. Khi số ký tự tài liệu tăng, mẫu số TF lớn hơn, khiến giá trị TF của từng từ tương đối nhỏ hơn. Do đó, chuẩn hóa độ dài tài liệu rất quan trọng để cải thiện độ chính xác TF-IDF. Sách học máy và phân tích văn bản cung cấp tham khảo thêm.