音声アシスタントの応答設計|最適な文字数と話し方

音声アシスタント (Alexa、Google アシスタント、Siri) の普及に伴い、音声インターフェース (VUI) の設計が重要性を増しています。画面を見ずに情報を受け取る音声応答では、文字数と話し方が体験の質を大きく左右します。この記事では、音声アシスタントの応答設計における最適な文字数と表現方法を解説します。

音声応答の文字数目安

音声応答は「聞いて理解する」メディアです。視覚的に読み返せるテキストとは異なり、一度聞き逃すと情報を取り戻せません。そのため、簡潔さが最も重要な設計原則になります。

応答タイプ推奨文字数発話時間の目安
確認応答10〜30 文字1〜3 秒
簡単な回答30〜80 文字3〜8 秒
詳細な説明80〜150 文字8〜15 秒
リスト読み上げ各項目 20〜40 文字 × 3〜5 項目15〜30 秒
エラー・再確認30〜60 文字3〜6 秒

1 回の応答は 150 文字 (約 15 秒) を上限とするのが基本です。これを超えると、ユーザーは情報を処理しきれず、途中で「ストップ」と言ってしまいます。

自然な話し方の設計原則

音声応答は「読まれる」のではなく「聞かれる」テキストです。書き言葉と話し言葉では、適切な表現が根本的に異なります。

音声応答を設計する際の基本原則は以下の通りです。

応答の冒頭には結論を置きます。「明日の東京の天気は晴れです。最高気温は 25 度、降水確率は 10% です」のように、最も重要な情報を最初に伝え、詳細を後に続けます。

プラットフォーム別の設計指針

主要な音声アシスタントには、それぞれ固有の設計ガイドラインがあります。プラットフォームの特性を理解し、ユーザーの期待に沿った応答を設計することが重要です。

Alexa (Amazon) は「簡潔さ」を最も重視します。応答は 8 秒以内に収めることが推奨されており、長い応答にはカード (画面表示) を併用します。Google アシスタントは「会話の自然さ」を重視し、ユーザーとの対話を継続する設計が求められます。Siri (Apple) は「正確さ」を重視し、簡潔で的確な回答を返すことが期待されます。

いずれのプラットフォームでも、応答の文字数を文字数カウントスで確認し、発話時間の目安を把握しておくことが設計の基本です。

エラー処理と再確認の設計

音声インターフェースでは、認識エラーや曖昧な入力が頻繁に発生します。エラー時の応答設計は、ユーザー体験を左右する重要な要素です。

エラー応答の基本パターンは「謝罪 + 原因の示唆 + 再試行の促し」です。「すみません、うまく聞き取れませんでした。もう一度お願いできますか?」のように、ユーザーを責めない表現を使います。

再確認が必要な場合は、選択肢を提示して負担を軽減します。「東京のレストランですか?それとも東京のホテルですか?」のように、2〜3 択で確認すると、ユーザーは簡単に回答できます。選択肢は 3 つ以下に抑え、各選択肢は 10〜20 文字で簡潔に表現します。

意外と知らない音声アシスタントのトリビア

Amazon の Alexa チームの研究によると、ユーザーが音声応答を「長い」と感じる閾値は約 15 秒 (推定 150 文字) とされています。15 秒を超えると、ユーザーの約 30% が「ストップ」と発話して応答を中断するというデータがあります。

もう一つ興味深いのは、音声アシスタントの応答で最も重要なのは「最初の 3 秒」だという点です。人間の聴覚的注意力は最初の数秒で急速に低下するため、結論を冒頭に置く「逆ピラミッド構造」が音声応答では特に重要になります。新聞記事のリード文と同じ原則が、音声 UI にも適用されるのです。

なぜ音声応答は 150 文字以内なのか

150 文字 (約 15 秒) という上限は、人間の短期記憶 (ワーキングメモリ) の容量に基づいています。心理学者 George Miller の研究で知られる「マジカルナンバー 7±2」の法則によると、人間が一度に保持できる情報のチャンク数は 5〜9 個です。15 秒の音声応答に含まれる情報チャンクは概ね 3〜5 個であり、これが短期記憶の限界に収まる範囲です。

確認応答が 10〜30 文字 (1〜3 秒) と短いのは、ユーザーが「操作が受け付けられた」という確認だけを求めているためです。「はい、タイマーを 5 分にセットしました」のように、操作の結果を端的に伝えれば十分です。

よくある失敗パターン

プロが実践する音声応答設計テクニック

まとめ

音声アシスタントの応答設計では、1 回の応答を 150 文字以内に収め、結論を先に伝える構成が基本です。書き言葉ではなく話し言葉を意識し、短い文・和語・具体的な数字を使って、聞いて理解しやすい応答を設計しましょう。応答テキストの文字数は文字数カウントスで確認し、発話時間が適切かどうかを事前にチェックしてください。