Dịch máy (Machine Translation)

Công nghệ cho phép máy tính tự động dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác. Chất lượng đã cải thiện vượt bậc nhờ dịch máy thần kinh (NMT), thực hiện chuyển đổi liên ngôn ngữ kèm theo sự thay đổi số ký tự.

Dịch máy (machine translation - MT) là công nghệ chuyển đổi văn bản từ ngôn ngữ này sang ngôn ngữ khác mà không cần sự can thiệp của con người. Google Dịch, DeepL, Microsoft Translator và các dịch vụ tương tự đã phổ biến rộng rãi, được sử dụng hàng ngày để dịch trang web, bản nháp tài liệu kinh doanh và dịch hội thoại thời gian thực, phá vỡ rào cản ngôn ngữ.

Lịch sử dịch máy chia thành 3 thế hệ. Thế hệ thứ nhất - dịch dựa trên quy tắc (1950-1990) - dịch dựa trên ngữ pháp và từ điển. Thế hệ thứ hai - dịch máy thống kê (2000-2015) - học mẫu dịch từ lượng lớn dữ liệu song ngữ. Thế hệ thứ ba - dịch máy thần kinh (NMT, 2016 đến nay) - sử dụng học sâu để nắm bắt ý nghĩa toàn câu. NMT đã cải thiện chất lượng dịch một cách đáng kể.

Mối quan hệ giữa dịch máy và số ký tự rất mật thiết. Cùng một nội dung biểu đạt bằng ngôn ngữ khác nhau, số ký tự thay đổi đáng kể. Tiếng Nhật "情報" (2 ký tự) trở thành "information" (11 ký tự) trong tiếng Anh, và "thông tin" (8 ký tự) trong tiếng Việt. Dịch từ tiếng Việt sang tiếng Anh thường tăng 20-40% số ký tự, trong khi dịch từ tiếng Anh sang tiếng Việt thường giảm 10-20%. Tỷ lệ này ảnh hưởng trực tiếp đến thiết kế kích thước nút bấm và nhãn trong bản địa hóa giao diện.

Giới hạn ký tự sau dịch là thách thức thực tế quan trọng. Khi dịch trong giới hạn 280 ký tự của Twitter, 280 ký tự tiếng Việt chứa lượng thông tin tương đương khoảng 350-400 ký tự tiếng Anh, nên bản dịch tiếng Anh có thể vượt giới hạn. Meta description, quảng cáo, nhãn giao diện - những văn bản có giới hạn ký tự đều cần ý dịch hoặc tóm tắt thay vì dịch trực tiếp.

Đánh giá chất lượng dịch máy thường sử dụng điểm BLEU. BLEU so sánh đầu ra dịch máy với bản dịch tham chiếu của con người bằng tỷ lệ khớp N-gram, cho điểm từ 0 đến 100. NMT hiện tại đạt BLEU 40-50 cho cặp Anh-Pháp, nhưng cặp Việt-Anh thường thấp hơn do cấu trúc ngôn ngữ khác biệt lớn (tiếng Việt là ngôn ngữ đơn lập, tiếng Anh là ngôn ngữ biến hình).

Hậu biên tập (post-editing) - công việc con người sửa đầu ra dịch máy - đang trở thành quy trình tiêu chuẩn trong ngành dịch thuật. Sử dụng dịch máy tạo bản nháp, sau đó dịch giả kiểm tra và sửa chữa, giúp tăng tốc độ dịch 2-3 lần trong khi duy trì chất lượng. Khối lượng hậu biên tập phụ thuộc vào chất lượng dịch máy và số ký tự văn bản gốc.

Chia sẻ bài viết này