机器翻译

计算机将一种语言的文本自动翻译为另一种语言的技术。神经机器翻译 (NMT) 的出现使翻译质量实现了飞跃式提升,能够完成伴随字符数变化的跨语言转换。

机器翻译 (machine translation, MT) 是在无需人工干预的情况下,将文本从一种语言转换为另一种语言的技术。Google 翻译、DeepL、百度翻译、有道翻译等服务已广泛普及,在网页翻译、商务文档初译、实时对话翻译等场景中,作为跨越语言障碍的工具被日常使用。

机器翻译的发展历程可分为三个阶段。第一代基于规则的翻译 (1950-1990 年代) 依靠语法规则和词典进行翻译。第二代统计机器翻译 (2000-2015 年) 从大量平行语料中统计学习翻译模式。第三代神经机器翻译 (NMT, 2016 年至今) 利用深度学习捕捉整句语义进行翻译。NMT 的出现使翻译质量实现了质的飞跃。

机器翻译与字符数的关系十分密切。同一内容用不同语言表达时,字符数会发生显著变化。中文的"信息"(2 个字符) 翻译成英文是"information"(11 个字符)。通常,中文翻译成英文后字符数会增加 1.5 至 2 倍,英文翻译成中文后字符数则缩减为 0.5 至 0.7 倍。这一膨胀率在 UI 本地化中直接影响按钮和标签的尺寸设计。

翻译后的字符数限制是实务中的重要课题。在微博 140 字限制内进行翻译时,中文 140 字所承载的信息量相当于英文 200-300 字,翻译成英文后很可能超出限制。元描述、广告文案、UI 标签等有字符数限制的文本,翻译时不能简单直译,而需要进行意译或概括以控制在限制范围内。

机器翻译的质量评估广泛使用 BLEU 分数。BLEU 通过比较机器翻译输出与人工参考翻译的 N-gram 匹配率来评分,范围为 0 至 100。当前的 NMT 在英法互译中可达到 BLEU 40-50 分,但中英互译由于语言结构差异较大,分数通常偏低。近年来,中国在机器翻译领域投入大量研究资源,百度、阿里、腾讯等企业的翻译引擎在中英翻译质量上持续提升。

译后编辑 (post-editing, 即对机器翻译输出进行人工修正) 正在成为翻译行业的标准工作流程。先用机器翻译生成初稿,再由人工译者进行质量审核和修正,可以在保持质量的同时将翻译速度提升 2 至 3 倍。译后编辑的工作量取决于机器翻译的质量和原文的字符数。

分享这篇文章