文本转语音 (TTS)
将文本数据转换为语音的技术。是屏幕阅读器和语音助手的基础技术。
文本转语音 (TTS: Text-to-Speech) 是将文本数据转换为人类语音的技术。广泛用作屏幕阅读器、语音助手 (Siri、Alexa) 和导航系统的基础技术。
TTS 处理包括三个阶段:文本分析 (形态分析、发音推断)、韵律生成 (重音、语调) 和语音合成。近年来基于深度学习的合成技术能够生成非常自然的语音。语音合成技术书籍介绍了底层机制。
Web 浏览器通过 Web Speech API 的 SpeechSynthesis 接口提供 TTS 功能。日语 TTS 中,汉字读音消歧 (同形异音词) 仍是一个挑战。
从字符计数角度看,文本长度与朗读时间成正比。日语中每分钟约 300-400 个字符是标准朗读速度。语音界面设计书籍提供了更多见解。