Text-to-Speech (TTS)
Công nghệ chuyển đổi dữ liệu văn bản thành giọng nói. Công nghệ nền tảng cho trình đọc màn hình và trợ lý giọng nói.
Chuyển văn bản thành giọng nói (TTS) là công nghệ chuyển đổi dữ liệu văn bản thành giọng nói con người. It is used across a wide range of applications including screen readers, voice assistants (Siri, Alexa, Google Assistant), car navigation systems, and e-book narration features. For users with visual impairments, TTS is an essential means of accessing web content.
Xử lý TTS gồm ba giai đoạn chính. Giai đoạn đầu, phân tích văn bản, thực hiện phân đoạn từ qua phân tích hình thái, ước tính cách đọc cho số và viết tắt, và phân biệt từ đồng âm. Giai đoạn thứ hai, tạo ngữ điệu, xác định trọng âm, ngữ điệu và vị trí ngắt. Giai đoạn thứ ba, tổng hợp giọng nói, tạo dạng sóng âm thanh thực tế. Các công nghệ tổng hợp dựa trên deep learning gần đây (WaveNet, Tacotron, VITS, v.v.) có thể tạo giọng nói gần như không thể phân biệt với giọng người. Sách công nghệ tổng hợp giọng nói giải thích các cơ chế này.
Trình duyệt web cung cấp chức năng TTS thông qua giao diện SpeechSynthesis của Web Speech API. Triển khai chỉ cần vài dòng mã: speechSynthesis.speak(new SpeechSynthesisUtterance('Text to read')). Các dịch vụ đám mây như Amazon Polly, Google Cloud Text-to-Speech và Azure Cognitive Services Speech cung cấp điều khiển nâng cao thông qua SSML (Speech Synthesis Markup Language), cho phép tinh chỉnh tốc độ đọc, cao độ và ngắt.
TTS tiếng Nhật đối mặt với thách thức riêng trong việc phân biệt cách đọc kanji. Ký tự "生" có thể đọc là "nama," "sei," "shou," hoặc "ikiru" tùy ngữ cảnh. Tên người và địa danh thường không có trong từ điển, khiến từ điển tùy chỉnh và dữ liệu chú thích ruby có giá trị để cải thiện độ chính xác. So với tiếng Anh, tiếng Nhật có mẫu trọng âm riêng cho từng từ (phẳng, cao đầu, cao giữa, cao cuối), khiến việc tạo ngữ điệu tự nhiên khó khăn hơn.
TTS và trình đọc màn hình có liên quan chặt chẽ nhưng đóng vai trò khác nhau. TTS là công cụ chuyển văn bản thành giọng nói, trong khi trình đọc màn hình là phần mềm diễn giải thông tin trên màn hình và chuyển cho công cụ TTS. Để cải thiện khả năng tiếp cận nội dung web, điều quan trọng là sử dụng HTML ngữ nghĩa, đặt thuộc tính ARIA phù hợp và cung cấp văn bản alt cho hình ảnh để trình đọc màn hình có thể diễn giải cấu trúc chính xác.
Từ góc độ đếm ký tự, số ký tự văn bản và thời gian đọc có mối quan hệ tỷ lệ. Tiếng Nhật thường được đọc khoảng 300-400 ký tự mỗi phút, trong khi tiếng Anh trung bình 150-180 từ mỗi phút. Mối quan hệ này cho phép ước tính thời lượng đọc từ số ký tự. Trong viết kịch bản podcast và thuyết minh video, quản lý thời gian dựa trên số ký tự là kỹ thuật được thực hành rộng rãi. Sách thiết kế giao diện giọng nói cung cấp tham khảo thêm.