近日,百度翻译团队在机器同传领域取得突破性新进展,创新性地提出了全球首个上下文感知的机器同传模型,并基于此发布最新的语音到语音的机器同传系统:DuTongChuan(度同传),同时发布了全球首个中文-英文演讲场景语音翻译数据集(BSTC)。经过真实测试,AI同传效果媲美人类译员!
形象地来说,“度同传”就像你身边的一位虚拟同传译员,只需要带上耳机,就可以听到用自己母语播报出来的演讲内容,获得沉浸式体验。这位“虚拟译员”可以根据演讲的上下文,实时地播放连贯、准确的翻译结果。区别于此前的翻译系统,不考虑上下文环境,“播了这一句,忘了上一句”。此外,由于该系统以小程序的形式提供服务,只需要一个手机就可以收听,省去了租用同传红外设备的成本。
推全球首个上下文感知的机器同传模型 首发语音翻译数据集(BSTC)
和传统的机器同传技术不同,“度同传”使用了最新研发的感知上下文的机器同传模型。百度翻译团队创新性地提出了语义信息单元(Information Unit,IU)这一概念,将实时语音流进行IU切分并以其作为翻译单元。这一灵感来自于人类同传译员,在翻译的时候将听到的内容以语义块为单位进行翻译,既保证了翻译质量,又保证了实时性。
以下面的句子为例,如果等到句子结束再进行翻译,时间延迟会非常大。对于实时的语音流,IU检测模块会判断语音片段是否表达了一个完整的意思,比如“她说我错了”被识别为一个IU,此时进行翻译,既完整的传达了原文意思,又可以同步地跟上演讲者的节奏。
“度同传”工作流程
百度提出了一种基于动态上下文的IU检测模型,将IU检测看做一个分类问题。例如下面的例子,当模型无法判断“姬”这个词是否是一个IU的结束位置(左图),会继续读入更多的词语帮助做出判断(右图)。
语义信息单元检测模型
为了提升翻译的流畅度和一致性,百度创新性地提出两种解码算法:部分解码(Partial Decoding)和上下文感知解码(Context-aware Decoding),能够结合上下文信息,生成全局流畅的目标译文。而传统方法仅对当前句子做出翻译,没有结合上下文信息,译文流畅度差。
图 3:“度同传”模型框架
在产品形式上,与传统的字幕投屏同传相比,“度同传”采用语音到语音的同传形式能够使用户获得与人工同传类似的沉浸式体验,将注意力更集中在演讲者与演讲内容本身。此外,该系统具有高质量、高流畅度、低时延等特点,这得益于百度研发的最新技术。该系统成功应用于2019百度AI开发者大会,将演讲内容实时翻译给现场观众收听,好评如潮。
百度翻译团队还发布了全球首个中文-英文演讲场景语音翻译数据集(BSTC)。该数据集总共包含超过50小时的演讲语音和对应的转录文本、时间轴、翻译文本等数据资源,涉及IT、经济、文化、生物、艺术等演讲主题。 该数据集填补了机器同传研究没有真实数据集的空白,对推动相关研究具有重要作用。
表 1:BSTC数据集详细统计数据
(转录文本根据字符统计,翻译文本根据词统计,语音Audio根据小时统计)
真人与机器同传“同场竞技” AI媲美人类
为了评估当前机器同传技术的进展,百度翻译团队邀请了3个具有不同工作年限(3-7年)的同传译员,模拟真实的同传场景,对BSTC中的同一个演讲进行同声传译。最终结果表明,无论是采用传统的BLEU自动评价指标,以及人工译员的人工评价方法,度同传都表现出极具竞争力的翻译水平。
值得注意的是,评估所用的BLEU和人工评价均基于转写后的译文文本。BLEU指标基于n-gram严格匹配计算得分,而人工评价侧重译文的完整性和流畅度,类似于用笔译的标准评价口译。从表3可以看出,机器译文在可接受度(acceptability,综合评价译文的准确、流畅度,分数越高越好)上与人工译员相当(73.91% V.S. 73.04%),而在漏译率(漏翻译的词语占总数的百分比)上,机器明显低于人类译员(20% V.S. 47%)。人类译员在漏译率较高的情况下,仍然保持了较高的可接受度。这说明,人类译员在实时性要求高、脑力工作强度大的同传情景下,会灵活地适当省略,以突出重要信息的传递。而机器的优势在于其不知疲倦、漏译率低,显示出在同传场景下的巨大潜力。从表中也可以看出,传统的基于文本的评价方式评价同传有其局限性。研究契合同传场景的评价标准和指标是一个亟待解决的问题,也是一个非常有价值的方向。
度同传和人工同传(S,A,B)自动评价结果
度同传和人工同传人工评价结果
注:人工评价标准分为3档打分,可接受度为OK和GOOD之和。
BAD:译文准确性、流畅度很差,不能接受
OK:译文可懂,但是允许有少许错误(不影响理解内容)
GOOD:译文准确、流畅的传递了原文内容
2019百度AI开发者大会上,中文和英文演讲者的机器同传人工评价结果表明,从人工可接受度上,机器同传都达到了比较高的水准。中英同传可接受度为85.71%,英中同传可接受度为86.36%。根据现场使用体验,合成的目标语音仅落后演讲者语音3秒以内,为现场观众提供了高质量、低时延的沉浸式同传体验。
表4:人工评价结果
现阶段,机器同传已在许多国际会议上崭露头角,它的优势在于可以借助强大的AI技术和数据库作为后盾,可以拥有比人类同传译员更好的记忆力,掌握并调取更多资料和专业领域的知识。未来,百度将不断精进机器同传技术,打破语言壁垒,筑建世界沟通的桥梁。(用户可登入百度翻译开放平台申请体验最新同传技术:https://fanyi-api.baidu.com/api/trans/product/simultaneous,论文链接:https://arxiv.org/abs/1907.12984)