機械翻訳

コンピュータがある言語のテキストを別の言語に自動的に翻訳する技術。ニューラル機械翻訳 (NMT) の登場により品質が飛躍的に向上し、文字数の変動を伴う言語間変換を実現する。

機械翻訳 (machine translation、MT) は、人間の介入なしにテキストをある言語から別の言語に変換する技術です。Google 翻訳、DeepL、Microsoft Translator などのサービスとして広く普及しており、ウェブページの翻訳、ビジネス文書の下訳、リアルタイムの会話翻訳など、言語の壁を越えるツールとして日常的に使われています。

機械翻訳の歴史は 3 つの世代に分かれます。第一世代のルールベース翻訳 (1950〜1990 年代) は、文法規則と辞書に基づいて翻訳しました。第二世代の統計的機械翻訳 (2000〜2015 年) は、大量の対訳データから翻訳パターンを統計的に学習しました。第三世代のニューラル機械翻訳 (NMT、2016 年〜) は、深層学習で文全体の意味を捉えて翻訳します。NMT の登場により、翻訳品質は劇的に向上しました。

機械翻訳と文字数の関係は密接です。同じ内容を異なる言語で表現すると、文字数は大きく変動します。日本語の「情報」(2 文字) は英語で「information」(11 文字) になります。一般的に、日本語から英語への翻訳では文字数が 1.5〜2 倍に増加し、英語から日本語への翻訳では 0.5〜0.7 倍に減少します。この膨張率は、UI のローカライゼーションでボタンやラベルのサイズ設計に直接影響します。

翻訳後の文字数制限は実務上の重要な課題です。Twitter の 280 文字制限内で翻訳する場合、日本語の 280 文字は英語では 400〜500 文字相当の情報量を持つため、英語に翻訳すると制限を超えます。メタディスクリプション、広告コピー、UI ラベルなど、文字数制限のあるテキストの翻訳では、単純な翻訳ではなく、制限内に収まるよう意訳や要約が必要です。

機械翻訳の品質評価には BLEU スコアが広く使われています。BLEU は機械翻訳の出力と人間の参照翻訳を N-gram の一致率で比較する指標で、0〜100 の範囲で評価されます。現在の NMT は英語-フランス語間で BLEU 40〜50 程度を達成していますが、日本語-英語間は言語構造の違いが大きいため、やや低い傾向があります。

ポストエディット (機械翻訳の出力を人間が修正する作業) は、翻訳業界の標準的なワークフローになりつつあります。機械翻訳で下訳を作成し、人間の翻訳者が品質を確認・修正することで、翻訳速度を 2〜3 倍に向上させつつ品質を維持できます。ポストエディットの工数は、機械翻訳の品質と原文の文字数に依存します。

この記事を共有