机器之心报道
机器之心编辑部
由于不同语言之间存在词序差异,同步性要求较高的同声传译一直是困扰机器翻译的一大难题。使用传统的机器翻译方法至少会出现一个句子的延迟,导致用户无法与说话者同步。针对这一挑战,百度推出了首个拥有预判能力和可控延迟的机器同传翻译系统——STACL,以很小的质量损失获得了较小的延迟。
百度的 STACL(Simultaneous Translation with Anticipation and Controllable Latency)是首个拥有预判能力和可控延迟的机器同传翻译系统。它是一个能够进行高质量双语同传的自动系统,代表了自然语言处理方向的重大突破。这一技术的挑战很大一部分在于源语和目标语之间的次序差异以及现实世界同传应用的延迟需求。
我们一般把口译分为两种类型:
  1. 交替传译。译员要等到说话者停顿(通常在句子结尾停顿)时才开始翻译,因此需要双倍的时间完成交流过程。
  2. 同声传译。译员在说话者开始之后的几秒就开始翻译,并在他/她结束之后的几秒内停止翻译。
由于节省时间,同声传译被广泛应用于政府峰会、多边磋商及许多其它场合。同声传译的优势为其创造了大量需求,但同传译员的数量远远不够。而且每个译员只能工作一小段时间,之后他们的错误就会急剧增加,因此同传译员工作时都是两人或三人一组,每 20-30 分钟替换一下。
因此,迫切需要开发自动化系统来扩充同声传译的力量。
创造一个自动化系统进行可靠的同声传译是长期困扰这一领域的一大难题,源语和目的语之间的次序差异尤其难以克服。例如,这里有一个中文句子「布什总统在莫斯科与普京会晤」,中文词「会晤」出现在句末,与德语或日语动词类似。然而在其英语译文中,动词「meet」出现得要早得多。这种语言次序上的差异对于同传译员和可靠的机器同传系统来说都是很大的障碍。因此,几乎所有的「实时」翻译系统今天都还在使用传统的整句(即非同步)翻译方法,导致系统出现至少一个句子的延迟,使得用户无法与说话者同步。
我们受同传译员的启发想办法解决了这个难题,他们通常会预测演讲者接下来要讲的内容。但与同传译员不同的是,我们的模型预测的不是演讲者的源语言,而是直接预测翻译的目标语言,这样它就能够在一个「wait-k」模型中无缝融合译文和预测内容。在这个模型中,翻译总是延迟 k 个词,以预测一些上下文。我们训练模型在每个步骤(以及迄今为止的翻译)使用源语中的可用前缀来决定翻译中的下一个单词。在前面提到的例子中,鉴于中文前缀「布什总统在莫斯科」和此时的英语翻译「-P-resident Bush」(K=2,比中文延迟两个词),我们的系统准确地在下一个中文动词出现之前预测了下一个译文单词是「meet」,因为布什很可能在莫斯科「meeting」某人(比如普京)。就像人工同传需要提前了解演讲者的主题和风格一样,我们的模型也需要用大量具有相似句子结构的训练数据来训练,以进行合理的预测。
STACL 在延迟-质量的权衡方面也很灵活,用户可以任意指定延迟要求(如,一字延迟或五字延迟)。在法语和西语等密切相关的语言之间,延迟可以设置得更短,因为即使是逐字翻译也效果不错。然而,对于差异很大(如汉语和英语)以及语序不同的语言(如英语和德语),则需要更长的延迟来应对语序差异。翻译质量很容易受到短延迟的影响,但是与传统的整句(即非同步)翻译相比,我们的系统质量损失很小。对于短延迟要求,我们将继续提高翻译质量。
据说最好的同传译员可以传达 60% 的源材料信息(大约 3 秒钟的延迟),而百度的新同传系统比传统的整句翻译少了 3.4 个 BLEU 点(BLEU 是通过比较机器翻译结果和人工翻译来衡量整句翻译质量的标准评估指标)。在采用等待三词模式(wait-3-words model,指英语翻译比汉语语音落后三个汉字,约 1.5-2 秒的延迟)的汉英同传中,翻译质量的单一参考 BLEU 分数为 15.3 分,而传统的整句(非同步)翻译要高出 5 分左右。如果允许五个字(约 3 秒)的延迟,这种准确率差异会缩小到 3.4 分左右。
虽然这是最新进展,我们也完全意识到了机器同传系统的很多局限性。STACL 的发布没有打算取代人类译员,而是让同传变得更容易实现,人类译员在未来很多年仍然是翻译市场的主力军。
想了解更多关于 STACL 的信息,请看论文:
论文:STACL: Simultaneous Translation with Integrated Anticipation and Controllable Latency
论文地址:https://arxiv.org/pdf/1810.08398v1.pdf
摘要:同传在很多场景中都非常实用,但由于词序的差异和同步的要求,同传也非常难以实现。本文介绍了一种非常简单但效果惊人的「wait-k」模型,训练该模型在听到源语句的同时生成目标语句,但是通常会有 k 个词的延迟。该框架将预测内容和翻译无缝地集成在一个模型中,该模型是对现有神经翻译框架微调之后获得的。与整句的非同传相比,本文中的汉英同传实验需要五个词的延迟,质量下降了 3.4(单一参考)个 BLEU 值。此外,我们还制定了一个新的延迟度量来弥补以前的不足。
原文地址:http://research.baidu.com/Blog/index-view?id=107
本文为机器之心报道,转载请联系本公众号获得授权
✄------------------------------------------------
加入机器之心(全职记者 / 实习生):[email protected]
投稿或寻求报道:content@jiqizhixin.com
广告 & 商务合作:[email protected]
继续阅读
阅读原文