テキスト読み上げ (TTS)

テキストデータを音声に変換する技術。Text-to-Speech の略。スクリーンリーダーや音声アシスタントの基盤技術。

テキスト読み上げ (TTS: Text-to-Speech) は、テキストデータを人間の音声に変換する技術です。スクリーンリーダー、音声アシスタント (Siri、Alexa)、ナビゲーションシステムなどの基盤技術として広く使われています。

TTS の処理は、テキスト解析 (形態素解析、読み推定)、韻律生成 (アクセント、イントネーション)、音声合成の 3 段階で行われます。近年はディープラーニングベースの合成技術により、自然な音声が生成できるようになっています。音声合成技術の書籍で仕組みを学べます。

Web ブラウザでは Web Speech API の SpeechSynthesis インターフェースを通じて TTS 機能を利用できます。日本語の TTS では漢字の読み分け (同音異義語) が課題の一つです。

文字数カウントの観点では、テキストの文字数と読み上げ時間は比例関係にあり、日本語では 1 分あたり約 300〜400 文字が標準的な読み上げ速度です。音声インターフェースの書籍も参考になります。