Named Entity Recognition (NER)

Kỹ thuật NLP tự động xác định và phân loại các thực thể có tên như tên người, địa điểm và tổ chức từ văn bản.

Nhận dạng thực thể có tên (NER) là kỹ thuật xử lý ngôn ngữ tự nhiên tự động xác định các thực thể có tên như tên người, địa điểm, tổ chức, ngày tháng và số tiền từ văn bản và phân loại chúng vào các danh mục được xác định trước. Ví dụ, từ câu "John Smith gia nhập Tập đoàn ABC tại Tokyo năm 2024", NER trích xuất "John Smith" là người, "2024" là ngày, "Tokyo" là địa điểm và "Tập đoàn ABC" là tổ chức. Đây là một trong những tác vụ cơ bản nhất trong trích xuất thông tin và là điểm khởi đầu cho khai thác văn bản.

Công nghệ NER có thể chia thành ba thế hệ. Các phương pháp ban đầu dựa trên quy tắc, sử dụng biểu thức chính quy và từ điển để khớp mẫu. Các phương pháp thống kê như CRF (Conditional Random Fields) và HMM (Hidden Markov Models) sau đó trở thành xu hướng chính. Ngày nay, các phương pháp deep learning tinh chỉnh mô hình ngôn ngữ được huấn luyện trước như BERT và GPT đạt độ chính xác tiên tiến nhất. Bạn có thể tham khảo sách hướng dẫn NLP thực hành về phương pháp triển khai cho từng cách tiếp cận.

NER là công nghệ nền tảng cho nhiều ứng dụng NLP. Trong hệ thống hỏi đáp, các thực thể có tên trong câu hỏi đóng vai trò manh mối để truy xuất câu trả lời. Trong xây dựng đồ thị tri thức, NER là bước tiền xử lý thiết yếu để trích xuất mối quan hệ giữa các thực thể. Nó được sử dụng rộng rãi trong nhiều ngành, từ phân loại bài báo tự động đến trích xuất tên thuốc và bệnh từ tài liệu y tế và tên công ty và số liệu từ báo cáo tài chính. Các công cụ phổ biến bao gồm spaCy, Stanford NER và thư viện Transformers của Hugging Face.

NER tiếng Nhật có những thách thức riêng. Vì tiếng Nhật không sử dụng khoảng trắng để phân tách từ, phân tích hình thái học phải phân đoạn văn bản trước, và độ chính xác của nó ảnh hưởng trực tiếp đến kết quả NER. Phân biệt tên người với danh từ chung (ví dụ: "Matsu" là họ hay cây thông), xử lý từ mới và viết tắt, và xử lý kính ngữ đều là những vấn đề khó. Các mô hình NER tiếng Nhật được sử dụng rộng rãi bao gồm GiNZA và các mô hình dựa trên cl-tohoku/bert-base-japanese.

Một quan niệm sai lầm phổ biến là NER hoạt động hoàn hảo, nhưng trên thực tế độ chính xác thay đổi đáng kể theo lĩnh vực. Mặc dù có thể đạt độ chính xác cao trên văn bản có cấu trúc tốt như bài báo, hiệu suất có xu hướng giảm trên văn bản không chính thức như bài đăng mạng xã hội và tin nhắn chat. Xử lý các thực thể có tên mới không có trong dữ liệu huấn luyện (công ty mới thành lập, tên người mới) cũng là thách thức, đòi hỏi huấn luyện lại mô hình định kỳ.

Từ góc độ đếm ký tự, phân tích phân bố số ký tự của các thực thể được NER trích xuất giúp hiểu mật độ thông tin và thành phần văn bản. Văn bản giàu thực thể có tên cho thấy thông tin cụ thể phong phú, trong khi văn bản ít thực thể có tên gợi ý nội dung chủ yếu trừu tượng. Kết hợp công cụ đếm ký tự với NER cho phép phân tích văn bản định tính. Bạn có thể tham khảo sách NLP và machine learning để tìm hiểu thêm.