音声アシスタントの応答設計｜最適な文字数と話し方

音声アシスタント (Alexa、Google アシスタント、Siri) の普及に伴い、音声インターフェース (VUI) の設計が重要性を増しています。画面を見ずに情報を受け取る音声応答では、文字数と話し方が体験の質を大きく左右します。この記事では、音声アシスタントの応答設計における最適な文字数と表現方法を解説します。

音声応答の文字数目安

音声応答は「聞いて理解する」メディアです。視覚的に読み返せるテキストとは異なり、一度聞き逃すと情報を取り戻せません。そのため、簡潔さが最も重要な設計原則になります。

応答タイプ	推奨文字数	発話時間の目安
確認応答	10〜30 文字	1〜3 秒
簡単な回答	30〜80 文字	3〜8 秒
詳細な説明	80〜150 文字	8〜15 秒
リスト読み上げ	各項目 20〜40 文字 × 3〜5 項目	15〜30 秒
エラー・再確認	30〜60 文字	3〜6 秒

1 回の応答は 150 文字 (約 15 秒) を上限とするのが基本です。これを超えると、ユーザーは情報を処理しきれず、途中で「ストップ」と言ってしまいます。

自然な話し方の設計原則

音声応答は「読まれる」のではなく「聞かれる」テキストです。書き言葉と話し言葉では、適切な表現が根本的に異なります。

音声応答を設計する際の基本原則は以下の通りです。

短い文を使う: 1 文は 20〜30 文字以内に収める。長い文は聞き取りにくい
漢語より和語を優先する: 「実施する」より「行う」、「確認する」より「チェックする」
同音異義語を避ける: 「きかん」(期間・機関・器官) のように聞き分けにくい語は言い換える
数字は具体的に: 「いくつかの」ではなく「3 つの」のように明確にする

応答の冒頭には結論を置きます。「明日の東京の天気は晴れです。最高気温は 25 度、降水確率は 10% です」のように、最も重要な情報を最初に伝え、詳細を後に続けます。

プラットフォーム別の設計指針

主要な音声アシスタントには、それぞれ固有の設計ガイドラインがあります。プラットフォームの特性を理解し、ユーザーの期待に沿った応答を設計することが重要です。

Alexa (Amazon) は「簡潔さ」を最も重視します。応答は 8 秒以内に収めることが推奨されており、長い応答にはカード (画面表示) を併用します。Google アシスタントは「会話の自然さ」を重視し、ユーザーとの対話を継続する設計が求められます。Siri (Apple) は「正確さ」を重視し、簡潔で的確な回答を返すことが期待されます。

いずれのプラットフォームでも、応答の文字数を文字数カウントスで確認し、発話時間の目安を把握しておくことが設計の基本です。

エラー処理と再確認の設計

音声インターフェースでは、認識エラーや曖昧な入力が頻繁に発生します。エラー時の応答設計は、ユーザー体験を左右する重要な要素です。

エラー応答の基本パターンは「謝罪 + 原因の示唆 + 再試行の促し」です。「すみません、うまく聞き取れませんでした。もう一度お願いできますか？」のように、ユーザーを責めない表現を使います。

再確認が必要な場合は、選択肢を提示して負担を軽減します。「東京のレストランですか？それとも東京のホテルですか？」のように、2〜3 択で確認すると、ユーザーは簡単に回答できます。選択肢は 3 つ以下に抑え、各選択肢は 10〜20 文字で簡潔に表現します。

意外と知らない音声アシスタントのトリビア

Amazon の Alexa チームの研究によると、ユーザーが音声応答を「長い」と感じる閾値は約 15 秒 (推定 150 文字) とされています。15 秒を超えると、ユーザーの約 30% が「ストップ」と発話して応答を中断するというデータがあります。

もう一つ興味深いのは、音声アシスタントの応答で最も重要なのは「最初の 3 秒」だという点です。人間の聴覚的注意力は最初の数秒で急速に低下するため、結論を冒頭に置く「逆ピラミッド構造」が音声応答では特に重要になります。新聞記事のリード文と同じ原則が、音声 UI にも適用されるのです。

なぜ音声応答は 150 文字以内なのか

150 文字 (約 15 秒) という上限は、人間の短期記憶 (ワーキングメモリ) の容量に基づいています。心理学者 George Miller の研究で知られる「マジカルナンバー 7±2」の法則によると、人間が一度に保持できる情報のチャンク数は 5〜9 個です。15 秒の音声応答に含まれる情報チャンクは概ね 3〜5 個であり、これが短期記憶の限界に収まる範囲です。

確認応答が 10〜30 文字 (1〜3 秒) と短いのは、ユーザーが「操作が受け付けられた」という確認だけを求めているためです。「はい、タイマーを 5 分にセットしました」のように、操作の結果を端的に伝えれば十分です。

よくある失敗パターン

書き言葉をそのまま音声応答に使う: 「本日の最高気温は摂氏 25 度であり、降水確率は 10 パーセントと予測されております」のような書き言葉は、聞いて理解するには堅すぎます。「今日は晴れで、最高気温は 25 度です」のように話し言葉に変換しましょう
選択肢を 4 つ以上提示する: 「和食、洋食、中華、イタリアン、フレンチ、エスニックのどれにしますか？」のように選択肢が多すぎると、ユーザーは最初の選択肢を忘れてしまいます。選択肢は 3 つ以下に絞り、「他にもありますか？」で追加提示する設計にしましょう
同音異義語で誤解を招く: 「きかん」(期間・機関・器官)、「こうしょう」(交渉・高尚・公称) のように、音だけでは区別できない語を使うと、ユーザーが誤解します。「期間」は「期間、つまり日数」のように補足するか、別の表現に言い換えましょう

プロが実践する音声応答設計テクニック

「Wizard of Oz テスト」で応答を検証する: 実装前に、人間が音声アシスタントの役を演じてユーザーと対話するテスト手法です。応答の長さ、トーン、情報量が適切かどうかを、実際の対話の中で検証できます。Amazon や Google もプロトタイプ段階でこの手法を活用しています
SSML (Speech Synthesis Markup Language) で発話を制御する: SSML を使えば、間 (ポーズ)、強調、読み上げ速度を細かく制御できます。<break time="500ms"/> で 0.5 秒の間を入れたり、<emphasis> で重要な部分を強調したりすることで、自然で聞き取りやすい応答を実現できます
マルチモーダル対応で情報量を補完する: Echo Show や Google Nest Hub のような画面付きデバイスでは、音声で概要を伝え、画面に詳細情報やリストを表示する「マルチモーダル」設計が可能です。音声だけでは伝えきれない情報 (住所、URL、長いリスト) を画面で補完することで、150 文字の制約を超えた情報提供が実現できます

まとめ

音声アシスタントの応答設計では、1 回の応答を 150 文字以内に収め、結論を先に伝える構成が基本です。書き言葉ではなく話し言葉を意識し、短い文・和語・具体的な数字を使って、聞いて理解しやすい応答を設計しましょう。応答テキストの文字数は文字数カウントスで確認し、発話時間が適切かどうかを事前にチェックしてください。