Sentiment Analysis

Quá trình xác định cực tính cảm xúc (tích cực, tiêu cực, trung tính) từ văn bản.

Phân tích cảm xúc (còn gọi là khai thác ý kiến) là kỹ thuật xử lý ngôn ngữ tự nhiên xác định và phân loại cực tính cảm xúc được biểu đạt trong văn bản. Phân loại cơ bản nhất chia văn bản thành tích cực, tiêu cực hoặc trung tính. Phân tích nâng cao hơn có thể phát hiện cảm xúc cụ thể (vui, buồn, giận, sợ), mức độ cảm xúc (rất tích cực vs hơi tích cực) hoặc cảm xúc hướng đến khía cạnh cụ thể (thức ăn ngon nhưng dịch vụ kém).

Có ba phương pháp chính cho phân tích cảm xúc. Phương pháp dựa trên từ điển sử dụng danh sách từ được gán điểm cảm xúc (ví dụ: "tuyệt vời" = +3, "tệ" = -2) và tính tổng điểm. Phương pháp machine learning huấn luyện bộ phân loại (Naive Bayes, SVM) trên dữ liệu đã gán nhãn. Phương pháp deep learning sử dụng mô hình ngôn ngữ được huấn luyện trước (BERT, GPT) để hiểu ngữ cảnh và sắc thái. Bạn có thể tham khảo sách phân tích cảm xúc về phương pháp triển khai.

Phân tích cảm xúc được ứng dụng rộng rãi trong kinh doanh. Giám sát mạng xã hội theo dõi cảm xúc công chúng về thương hiệu hoặc sản phẩm theo thời gian thực. Phân tích đánh giá sản phẩm tự động phân loại hàng nghìn đánh giá để xác định điểm mạnh và yếu. Nghiên cứu thị trường phân tích cảm xúc trong bài đăng diễn đàn và bình luận blog. Giao dịch tài chính sử dụng phân tích cảm xúc tin tức để dự đoán biến động thị trường.

Phân tích cảm xúc tiếng Nhật có những thách thức riêng. Tiếng Nhật thường biểu đạt cảm xúc gián tiếp thông qua kính ngữ, phủ định kép và ngữ cảnh văn hóa. Ví dụ, "ちょっと..." (một chút...) thường ngụ ý phủ định lịch sự. Biểu tượng cảm xúc và kaomoji (顔文字) như "(^_^)" và "(T_T)" mang thông tin cảm xúc quan trọng trong văn bản tiếng Nhật không chính thức.

Một quan niệm sai lầm phổ biến là phân tích cảm xúc luôn chính xác. Trên thực tế, mỉa mai ("Ồ, tuyệt vời, lại mất điện"), phủ định ("không tệ" = tích cực), ngữ cảnh phụ thuộc ("pin dài" tích cực cho điện thoại, tiêu cực cho thời gian chờ) và văn hóa (biểu đạt cảm xúc khác nhau giữa các nền văn hóa) đều là thách thức lớn. Độ chính xác điển hình của hệ thống phân tích cảm xúc là 70-85%, thấp hơn nhiều so với nhận thức phổ biến. Bạn có thể tham khảo sách hướng dẫn phân tích văn bản để tìm hiểu thêm.

Từ góc độ đếm ký tự, độ dài văn bản ảnh hưởng đến độ chính xác phân tích cảm xúc. Văn bản rất ngắn (dưới 20 ký tự) thường thiếu ngữ cảnh cho phân tích chính xác, trong khi văn bản dài có thể chứa cảm xúc hỗn hợp. Sử dụng công cụ đếm ký tự để đánh giá độ dài văn bản trước khi phân tích cảm xúc giúp ước tính độ tin cậy của kết quả.