Khai phá văn bản (Text Mining)
Công nghệ trích xuất các mẫu và tri thức hữu ích từ lượng lớn dữ liệu văn bản bằng phương pháp thống kê và ngôn ngữ học. Kết hợp các kỹ thuật như phân tích hình thái, phân tích tần suất, phân tích đồng xuất hiện và phân tích cảm xúc.
Khai phá văn bản (text mining) là công nghệ tự động trích xuất các mẫu và xu hướng khó phát hiện bằng tay từ văn bản ngôn ngữ tự nhiên phi cấu trúc. Được ứng dụng trong mọi lĩnh vực có dữ liệu văn bản tích lũy: phân tích đánh giá khách hàng, khảo sát dư luận mạng xã hội, nắm bắt xu hướng luận văn học thuật, phân loại yêu cầu tổng đài hỗ trợ.
Quy trình xử lý cơ bản của khai phá văn bản gồm 4 giai đoạn. Giai đoạn một là tiền xử lý: làm sạch văn bản (loại bỏ thẻ HTML, chuẩn hóa ký hiệu, thống nhất cách viết). Giai đoạn hai là phân tích hình thái: tách câu thành từ và gán nhãn từ loại. Tiếng Nhật không có khoảng trắng giữa các từ nên cần công cụ phân tích hình thái như MeCab hay Janome. Tiếng Việt cũng có thách thức tương tự với ranh giới từ ghép, cần dùng các công cụ tách từ như VnCoreNLP hay Underthesea. Giai đoạn ba là trích xuất đặc trưng: chuyển đổi văn bản thành vector số bằng TF-IDF hoặc word embedding. Giai đoạn bốn là phân tích và trực quan hóa: áp dụng các phương pháp như phân cụm, phân loại, mô hình chủ đề.
Phân tích tần suất là phương pháp khai phá văn bản đơn giản nhất. Thống kê số lần xuất hiện của từ trong văn bản để xác định từ thường gặp. Tuy nhiên, các từ chức năng như "của", "là", "và" (stopword) dù có tần suất cao nhưng không mang thông tin nên cần loại bỏ. Kết quả phân tích tần suất thường được trực quan hóa dưới dạng word cloud, giúp nắm bắt trực quan xu hướng tổng thể của văn bản.
Phân tích đồng xuất hiện phát hiện các mẫu mà những từ cụ thể xuất hiện cùng nhau trong cùng ngữ cảnh. Ví dụ, nếu trong đánh giá sản phẩm "pin" và "lâu" đồng xuất hiện với tần suất cao, có thể biết thời lượng pin là mối quan tâm của người dùng. Trực quan hóa mạng đồng xuất hiện giúp làm rõ cấu trúc liên kết giữa các từ.
Phân tích cảm xúc (sentiment analysis) xác định văn bản thuộc loại tích cực, tiêu cực hay trung tính. "Sản phẩm này tuyệt vời" được phân loại là tích cực, "Không bao giờ mua lại" là tiêu cực. Phân tích cảm xúc tiếng Việt cũng gặp thách thức với các biểu đạt mỉa mai và uyển chuyển, tương tự như tiếng Nhật, khiến độ chính xác thường thấp hơn so với tiếng Anh.
Về mối liên hệ với đếm ký tự, trong giai đoạn tiền xử lý của khai phá văn bản, thống kê số ký tự và số từ là dữ liệu nền tảng. Độ dài tài liệu (số ký tự) là đặc trưng hiệu quả cho mô hình phân loại; trong phát hiện email spam, "email quá ngắn" hoặc "email cực dài" là manh mối phân biệt. Ngoài ra, phân tích N-gram sử dụng cả N-gram ký tự và N-gram từ, phân tích đa tầng từ mẫu cấp ký tự đến mẫu cấp ngữ nghĩa.