Xử lý ngôn ngữ tự nhiên (NLP)

Tổng hợp các công nghệ xử lý, hiểu và sinh ngôn ngữ tự nhiên (ngôn ngữ con người sử dụng hàng ngày) bằng máy tính. Bao gồm phân tích hình thái, phân tích cú pháp, phân tích ngữ nghĩa, dịch máy, phân tích cảm xúc.

Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) là lĩnh vực công nghệ xử lý ngôn ngữ con người bằng máy tính. "Ngôn ngữ tự nhiên" là khái niệm đối lập với ngôn ngữ nhân tạo như ngôn ngữ lập trình, chỉ các ngôn ngữ phát triển tự nhiên như tiếng Việt, tiếng Anh, tiếng Nhật. Công cụ tìm kiếm, trợ lý giọng nói, dịch máy, chatbot, bộ lọc spam - nhiều dịch vụ sử dụng hàng ngày đều dựa trên công nghệ NLP.

Xử lý NLP được tổ chức theo các tầng. Tầng thấp nhất là phân tích hình thái (tách văn bản thành từ và gán từ loại). Phân tích cú pháp xác định quan hệ ngữ pháp giữa các từ (chủ ngữ - vị ngữ, bổ ngữ). Phân tích ngữ nghĩa hiểu ý nghĩa câu và giải quyết sự mơ hồ. Phân tích diễn ngôn xử lý ngữ cảnh vượt ra ngoài câu đơn lẻ (giải quyết đại từ chỉ định, quan hệ logic giữa các câu). Mỗi tầng phụ thuộc vào kết quả của tầng dưới, nên độ chính xác của phân tích hình thái quyết định chất lượng toàn bộ hệ thống.

NLP tiếng Việt có những thách thức riêng biệt. Thứ nhất, ranh giới từ không rõ ràng: tiếng Việt dùng khoảng trắng giữa các âm tiết nhưng một từ có thể gồm nhiều âm tiết ("học sinh", "máy tính", "xử lý ngôn ngữ"), nên cần công cụ tách từ chuyên biệt như VnCoreNLP hoặc UndertheSea. Thứ hai, tiếng Việt là ngôn ngữ đơn lập - từ không biến đổi hình thái, ý nghĩa ngữ pháp được thể hiện qua trật tự từ và hư từ. Thứ ba, hệ thống thanh điệu (6 thanh) khiến nhận dạng giọng nói phức tạp hơn. Thứ tư, hiện tượng đồng âm khác nghĩa phổ biến (ví dụ: "đường" có thể là đường đi, đường ăn, hoặc đường cong).

Từ khi kiến trúc Transformer ra đời năm 2017, NLP đã tiến hóa vượt bậc. BERT (2018) học biểu diễn từ có ngữ cảnh, GPT (2018-) thực hiện sinh văn bản quy mô lớn. Các mô hình ngôn ngữ lớn (LLM) không chỉ thực hiện các tác vụ NLP truyền thống (dịch, tóm tắt, hỏi đáp) với độ chính xác gần con người, mà còn mở rộng sang lập trình và sáng tạo. Đối với tiếng Việt, PhoBERT và ViGPT là những mô hình được huấn luyện riêng, cho kết quả tốt hơn mô hình đa ngôn ngữ chung.

NLP và đếm ký tự có mối liên hệ chặt chẽ. Kết quả tách từ trực tiếp cho ra "số từ". Phát hiện ranh giới câu cần thiết cho "số câu". Ước tính thời gian đọc sử dụng số từ và độ phức tạp câu. Phân tích cảm xúc đo lường mức độ truyền tải cảm xúc trong giới hạn ký tự của mạng xã hội. Các tính năng nâng cao của công cụ đếm ký tự không thể thực hiện được nếu thiếu công nghệ NLP.

Chia sẻ bài viết này