Morphological Analysis
Quá trình phân đoạn văn bản thành các đơn vị có nghĩa nhỏ nhất (hình vị) và gán thông tin ngữ pháp.
Phân tích hình thái học là kỹ thuật NLP nền tảng phân đoạn văn bản thành các hình vị (đơn vị có nghĩa nhỏ nhất) và gán thông tin ngữ pháp như từ loại, cách đọc, dạng gốc và chia động từ. Đối với các ngôn ngữ như tiếng Nhật không có khoảng trắng giữa các từ, đây là bước đầu tiên không thể thiếu trong xử lý văn bản.
Cơ chế dựa trên sự kết hợp giữa từ điển và mô hình thống kê. Engine phân tích liệt kê các mẫu phân đoạn có thể cho văn bản đầu vào và chọn phân đoạn tự nhiên nhất bằng hàm chi phí (như thuật toán Viterbi). Ví dụ, phân tích "東京都に住んでいる" cho ra "東京 (danh từ)/都 (danh từ)/に (trợ từ)/住ん (động từ)/で (trợ từ)/いる (động từ)." Bạn có thể tham khảo sách nhập môn NLP để hiểu cách phân tích hình thái học hoạt động.
Các engine phân tích hình thái học chính bao gồm MeCab (triển khai C++, tốc độ cao), kuromoji (triển khai Java, dùng trong Elasticsearch), Sudachi (triển khai Java, hỗ trợ nhiều mức độ phân đoạn) và Janome (triển khai Python, dễ cài đặt). Mỗi engine cho kết quả phân đoạn khác nhau tùy thuộc vào từ điển sử dụng (IPAdic, UniDic, NEologd, v.v.), với độ chính xác khác nhau cho từ mới và danh từ riêng.
Phân tích hình thái học được sử dụng trong nhiều ứng dụng. Công cụ tìm kiếm sử dụng nó để phân đoạn tài liệu thành hình vị trước khi xây dựng chỉ mục đảo ngược. Nó là công nghệ nền tảng trong đếm từ cho công cụ văn bản, tiền xử lý phân tích cảm xúc, trích xuất từ khóa, tóm tắt tài liệu và tiền xử lý dịch máy.
Một thách thức phổ biến là xử lý từ chưa biết (từ không có trong từ điển). Danh từ riêng mới, từ sáng tạo và tiếng lóng có thể không có trong từ điển, dẫn đến phân đoạn sai. Để giải quyết, việc thêm từ điển từ mới như NEologd hoặc tạo từ điển người dùng để đăng ký thuật ngữ chuyên ngành là các phương pháp phổ biến.
Tiếng Anh có thể được tách từ bằng khoảng trắng, giảm nhu cầu phân tích hình thái học. Tuy nhiên, đối với các ngôn ngữ CJK (Trung, Nhật, Hàn), nó là không thể thiếu. Tiếng Trung sử dụng các công cụ như jieba và THULAC, trong khi tiếng Hàn sử dụng KoNLPy. Đối với việc đếm ký tự, phân tích hình thái học cho phép tính toán chính xác "số từ" ngoài "số ký tự" đơn giản. Xác định một câu tiếng Nhật chứa bao nhiêu từ đòi hỏi phân tích hình thái học, khiến nó trở thành tính năng nâng cao có giá trị trong công cụ đếm ký tự. Bạn có thể tham khảo sách NLP phân tích hình thái học về triển khai thực tế.