動画キャプション・字幕の文字数設計ガイド
動画コンテンツの爆発的な増加に伴い、キャプションや字幕の重要性はかつてないほど高まっています。YouTube では毎分 500 時間以上の動画がアップロードされ、その多くに字幕が付与されています。字幕は聴覚障害者へのアクセシビリティ確保だけでなく、音声をオフにして視聴するユーザー (通勤中、公共の場など) への対応としても不可欠です。本記事では、プラットフォーム別の字幕文字数基準、表示時間と読みやすさの関係、そして実践的な字幕制作テクニックを解説します。
字幕の基本ルールと文字数制限
字幕制作には、視聴者が無理なく読める文字数と表示時間のバランスが求められます。業界標準として広く採用されている基本ルールを以下に示します。
| 項目 | 基準値 | 備考 |
|---|---|---|
| 1 行あたりの文字数 | 日本語: 13〜16 文字 | 全角文字基準 |
| 最大行数 | 2 行 | 3 行以上は画面を圧迫する |
| 1 画面の最大文字数 | 日本語: 26〜32 文字 | 2 行合計 |
| 最短表示時間 | 1 秒 | 短すぎると読めない |
| 最長表示時間 | 7 秒 | 長すぎると次の字幕と混同 |
| 読み速度 (日本語) | 4〜5 文字/秒 | 一般的な読書速度 |
| 字幕間の間隔 | 0.1〜0.3 秒 | 字幕の切り替わりを認識するため |
日本語の字幕は 1 秒あたり 4〜5 文字が読みやすい速度とされています。つまり、16 文字の字幕であれば 3〜4 秒の表示時間が必要です。英語の場合は 1 秒あたり約 15〜20 文字 (3〜4 単語) が目安で、言語によって最適な文字数は大きく異なります。
プラットフォーム別の字幕仕様
動画プラットフォームごとに字幕の仕様や推奨設定が異なります。主要プラットフォームの比較を以下に示します。
| プラットフォーム | 1 行の文字数上限 | 最大行数 | ファイル形式 | 自動生成 |
|---|---|---|---|---|
| YouTube | 制限なし (推奨 32 文字) | 2 行推奨 | SRT, VTT, SBV | あり (自動字幕) |
| Netflix | 日本語 13 文字/行 | 2 行 | TTML (独自仕様) | なし (プロ翻訳) |
| テレビ放送 (日本) | 13〜15 文字/行 | 2 行 | ARIB 規格 | 一部あり |
| 映画 (劇場) | 13 文字/行 | 2 行 | DCP 字幕 | なし |
| TikTok | 制限なし (推奨 20 文字) | 制限なし | SRT | あり |
| Instagram Reels | 制限なし (推奨 20 文字) | 制限なし | SRT | あり |
Netflix の字幕ガイドラインは業界で最も厳格とされ、日本語字幕は 1 行 13 文字、2 行で最大 26 文字、表示速度は 1 秒あたり 4 文字以内と定められています。この基準は、字幕翻訳者の間で品質の指標として広く参照されています。
YouTube 字幕の文字数最適化
YouTube は世界最大の動画プラットフォームであり、字幕の最適化は視聴者のエンゲージメントに直結します。YouTube の自動字幕機能は便利ですが、精度は完璧ではないため、手動での修正が推奨されます。
- 1 セグメントの文字数は 20〜32 文字: YouTube の字幕エディタでは、1 つのセグメント (字幕ブロック) に表示する文字数を自由に設定できます。読みやすさを考慮すると、1 セグメント 20〜32 文字が最適です
- 表示時間は 1.5〜6 秒: 短い字幕 (10 文字以下) でも最低 1.5 秒は表示し、長い字幕 (30 文字) は 6 秒程度表示します
- 文の途中で切らない: 「今日は天気が/良いですね」のように意味の途中で字幕を分割すると、理解しにくくなります。文節や句読点の位置で区切りましょう
- 話者の切り替わりで字幕を分ける: 複数の話者がいる場合、話者が変わるタイミングで字幕を切り替えます。話者名を「[田中]」のように表記すると、誰の発言かが明確になります
YouTube の検索アルゴリズムは字幕テキストもインデックスの対象としています。適切なキーワードを含む字幕は、動画の検索順位向上にも寄与します。
テレビ・映画の字幕制作基準
テレビ放送や映画の字幕は、放送規格や業界慣行に基づく厳密な基準が存在します。日本のテレビ字幕は総務省のガイドラインに準拠し、聴覚障害者向けの字幕放送として整備されています。
- テレビ字幕の文字数: 1 行 13〜15 文字、2 行で最大 30 文字。NHK の字幕放送では 1 行 15 文字を基準としています
- 映画字幕の文字数: 1 行 13 文字、2 行で最大 26 文字。映画字幕翻訳の第一人者である戸田奈津子氏の時代から、この基準が踏襲されています
- 表示速度: テレビ字幕は 1 秒あたり 4 文字が標準。映画字幕はシーンのテンポに合わせて 3〜5 文字/秒で調整します
- 色分け: テレビの字幕放送では、話者ごとに字幕の色を変える運用が一般的です。白 (メイン話者)、黄 (サブ話者)、シアン (ナレーション) などの色分けが使われます
字幕翻訳における文字数の課題
字幕翻訳では、原語と翻訳先言語の文字数差が大きな課題となります。同じ内容を表現するのに必要な文字数は言語によって大きく異なるためです。
| 言語 | 同一内容の文字数比率 | 1 行の推奨文字数 | 特徴 |
|---|---|---|---|
| 日本語 | 1.0 (基準) | 13〜16 文字 | 漢字で情報密度が高い |
| 英語 | 1.5〜2.0 倍 | 35〜42 文字 | スペースを含むため長くなる |
| 中国語 (簡体字) | 0.8〜1.0 倍 | 13〜16 文字 | 日本語と同程度 |
| 韓国語 | 1.0〜1.2 倍 | 16〜18 文字 | 日本語よりやや長い |
| ドイツ語 | 1.8〜2.5 倍 | 35〜40 文字 | 複合語が長い |
| アラビア語 | 1.2〜1.5 倍 | 35〜40 文字 | 右から左に表示 |
英語から日本語への字幕翻訳では、原文の情報量を 60〜70% に圧縮する必要があることが多いです。これは日本語の文字数制限が厳しいためではなく、漢字の情報密度が高いため、少ない文字数で同等の意味を伝えられるからです。逆に、日本語から英語への翻訳では文字数が 1.5〜2 倍に膨らむため、表示時間の調整が必要になります。
アクセシビリティと字幕の文字数
字幕はアクセシビリティの観点からも重要な役割を果たします。WCAG (Web Content Accessibility Guidelines) 2.1 では、動画コンテンツにキャプションを提供することが Level A の要件として定められています。
- クローズドキャプション (CC): 視聴者が表示・非表示を切り替えられる字幕。効果音や音楽の説明 (「[ドアが閉まる音]」「♪ 軽快な BGM」) も含めます。効果音の説明は 5〜15 文字が目安です
- オープンキャプション: 映像に焼き込まれた字幕。常に表示されるため、文字サイズとコントラストに特に注意が必要です
- SDH (Subtitles for the Deaf and Hard of Hearing): 聴覚障害者向けの字幕。話者の識別、効果音、音楽の説明を含む包括的な字幕です
アクセシビリティ対応の字幕では、通常の字幕よりも情報量が増えるため、1 画面あたりの文字数が多くなりがちです。効果音の説明を含める場合は、本文の字幕を短くして全体のバランスを取ることが重要です。
まとめ
動画字幕の文字数は、日本語で 1 行 13〜16 文字、2 行で最大 32 文字が基本です。表示速度は 1 秒あたり 4〜5 文字を目安とし、プラットフォームごとの仕様に合わせて調整しましょう。字幕の文字数を正確に把握するには、文字数カウントスをぜひご活用ください。