Stopword
Các từ xuất hiện thường xuyên bị loại trừ khỏi tìm kiếm và phân tích văn bản, như "a," "the," "is," và "in."
Từ dừng (stop words) là các từ có tần suất cao bị loại trừ khỏi phân tích văn bản và lập chỉ mục công cụ tìm kiếm. Trong tiếng Nhật, các trợ từ như の, は, が, を, に, で, and と thuộc loại này; trong tiếng Anh, các mạo từ, giới từ và động từ be như "a," "the," "is," "in," "and," and "of." Mặc dù các từ này xuất hiện cực kỳ thường xuyên, chúng mang ít thông tin ngữ nghĩa, khiến chúng trở thành nhiễu trong phân tích văn bản.
Mục đích chính của việc loại bỏ từ dừng là cải thiện độ chính xác tìm kiếm và giảm kích thước chỉ mục. Các công cụ tìm kiếm toàn văn được báo cáo có thể giảm kích thước chỉ mục 20 đến 30% bằng cách loại trừ từ dừng. Trong khai phá văn bản, tính TF-IDF (Tần suất thuật ngữ-Tần suất tài liệu nghịch đảo) sau khi loại bỏ từ dừng cho phép trích xuất chính xác hơn các từ khóa đặc trưng cho tài liệu. Sách cơ chế hoạt động công cụ tìm kiếm đề cập đến xử lý từ dừng.
Danh sách từ dừng thay đổi theo ngôn ngữ và trường hợp sử dụng. NLTK (thư viện xử lý ngôn ngữ tự nhiên của Python) bao gồm danh sách 179 từ dừng tiếng Anh. Danh sách từ dừng tiếng Nhật được xây dựng dựa trên kết quả phân tích hình thái, tập trung vào trợ từ, trợ động từ và liên từ. Thêm từ dừng theo lĩnh vực cụ thể (ví dụ: "patient" trong ngữ cảnh y tế, "clause" trong ngữ cảnh pháp lý) có thể cải thiện thêm độ chính xác phân tích.
Tuy nhiên, việc loại bỏ từ dừng một cách đại trà cần thận trọng. Trong các trường hợp như "to be or not to be" nơi từ dừng mang ý nghĩa cốt lõi, hoặc "The Who" (tên ban nhạc) nơi danh từ riêng chứa từ dừng, việc loại bỏ gây mất thông tin. Tìm kiếm cụm từ ("New York," v.v.) cũng phụ thuộc vào thông tin vị trí từ dừng, khiến việc loại bỏ hoàn toàn không phù hợp.
Các công cụ tìm kiếm hiện đại và LLM có xu hướng không loại bỏ từ dừng, thay vào đó xem xét toàn bộ ngữ cảnh. Google không còn hoàn toàn bỏ qua từ dừng, sử dụng chúng để hiểu ý định truy vấn. Các mô hình Transformer như BERT học ngữ cảnh từ toàn bộ câu bao gồm từ dừng, nên việc tiền xử lý loại bỏ từ dừng thực tế có thể phản tác dụng.
Liên quan đến đếm ký tự, từ dừng có đặc điểm chiếm tỷ lệ lớn trong tổng số ký tự văn bản. Trong văn bản tiếng Anh, từ dừng được báo cáo chiếm 25 đến 30% tổng số từ, và trợ từ tiếng Nhật cũng chiếm phần đáng kể trong số ký tự. Đối với nội dung giới hạn ký tự (tweet, mô tả meta, v.v.), việc giảm từ dừng một cách có ý thức cho phép đóng gói nhiều thông tin hơn vào số ký tự giới hạn. Sách nhập môn khai phá văn bản đề cập đến kỹ thuật tiền xử lý.