2021年国际口语机器翻译评测比赛IWSLT中包揽三赛道冠军

admin发布

在2021年国际口语机器翻译评测比赛(简称IWSLT)上,科大讯飞与中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)联合团队在同声传译任务(Simultaneous Speech Translation,简称同传)中包揽三个赛道的冠军。这是继2018年在IWSLT比赛中获得语音翻译端到端冠军之后,科大讯飞再次以实际行动证明了其在语音翻译和机器同传领域的国际领先地位。

IWSLT是国际上最具影响力的口语机器翻译评测比赛之一,针对语音翻译实际应用面临的难题,通过每年设定一些研究任务,并向外界提供公开的数据集合,吸引全球各地的科研团队参与比赛,以此推动语音翻译技术创新和知识共享。大赛至今已经举办18年,在业界颇具话语权。

在今年,IWSLT共设置了4类任务,其中包括同传任务,为考察不同语言对语序的影响以及语音同声传译整体性能,在本次同声传译任务中设置了三个赛道:

  • 英德文本同传:实时地将英语文本翻译为德语文本,输入按词逐个读入,系统判断何时翻译与输出;
  • 英日文本同传:考虑语序差异较大的语种,实时地英语文本翻译为日语文本;
  • 英德语音同传:实时地将英语语音直接翻译成德语文本。

并通过“翻译质量”和“翻译延迟”两个维度来进行评测,以下是英德文本同传比赛结果:

翻译效果-延迟曲线(英德文本同传)

讯飞在低中高三个延迟区间上都显著优于其他系统(上图中红色小星星的位置),并拿下了全部赛道的冠军!尤其是低延迟环境下的进展,将进一步推动机器同传的商业落地。

三个赛道详细的比赛结果如下:

英德文本同传效果排名
英日文本同传效果排名
英德语音同传效果排名

讯飞创新性地提出Cross Attention Augmented Transducer(CAAT)同传架构,可以更好地实现翻译效果和延迟的平衡。本次提交的系统正是基于这一框架实现的,其模型结构如下:

CAAT模型结构

针对同传任务中翻译质量和延迟这两个评价目标,借鉴语音识别中针对多路径的优化方式,实现了将动态决策和翻译效果进行联合优化,从而在延迟-翻译质量之间找到了更好的平衡。

相比目前主流的机器翻译技术,CAAT避免了固定延迟导致的延迟过大或翻译质量下降的问题,在相同延迟下取得翻译质量的明显提升。