第四届中文人机对话技术评测结果公布

admin发布

近年来人机对话技术受到学术界和工业界的广泛关注,人机对话评测确仍面临诸多挑战。为此,我们举办了第四届中文人机对话技术评测。在该评测中提出了两个任务,分别是小样本对话语言理解技术评测(任务1)和知识驱动的多轮对话竞赛(任务2)。

该文提到的数据集已在《数据智能》(英文刊)数据平台发布。

发布网址:https://doi.org/10.11922/sciencedb.j00104.00091

任务1.人工智能在深度学习方法的帮助下取得了令人瞩目的成就,然而目前的深度学习方法都需要大量的标注训练数据。在真实的落地场景下,大量人工标注数据往往是很难获得的。反观人类,人在学习一个新的任务时只需要少数几个样例。这种巨大的反差启发科研人员开始探索能够像人一样利用先前经验和少量数据进行学习的人工智能系统。

小样本学习专门研究如何利用过往经验知识,在新的任务上只使用少数几个样例数据进行学习,通常在新的任务上每个类别只有1-5个样例数据。本次评测中,我们着眼于任务型对话系统中对话语言理解任务(SLU,Spoken Language Understanding)的小样本学习问题。模型先在一些数据充足的领域训练,然后在未见的新领域上测试。针对一个领域,我们每次给定模型一个带标注的支撑样本集(Support Set)作为参考,让模型对任意未见过的查询样本集(Query Set)标注用户意图和槽位。对于槽填充任务采用F1作为评价指标,并将句准确值(sentence acc)作为最终排名依据。

根据最后排名结果,招行AIlab-CC获得评测第一名的成绩。该队伍利用同义词词典扩充槽位识别的数据,并且将数据进行均衡,来帮助模型学习到不同槽位的信息。其次,他们将Roberta-wwm-ext作为基准模型,并且利用支撑集进行微调,完成了序列标注任务。更进一步的,为了兼顾完成意图识别任务,他们还采用了将意图信息融入到槽位识别中。

任务2.在人机对话系统领域,尽管对话生成的任务得到了广泛的研究,但是对于驱动对话生成的知识的建模却由于缺少数据支持亟待研究。如可以在多轮人机对话中有效的对知识的交互进行建模,则可以极大地提升人机对话系统的逻辑性、信息量、可解释性等智能化程度,从而带来更好的用户体验。在对话场景下,已知对话上下文和所有知识图谱信息,要求生成符合知识图谱信息与上下文逻辑的对话回复。知识图谱由一系列三元组(如<头实体,关系,尾实体>)描述。并分别采用自动评价指标BLEU-4、Distinct-2和人工评价指标Informativeness和Appropriateness进行最终排名。

在此任务中大部分的队伍都选择了利用编码器对知识进行编码,然后输入到预训练模型中,将知识和上下文融合起来。苏州课得乐获得第一名的成绩。该队伍首先训练一个主题提取模型,将上下文中所有与知识相关的主题词都提取出来,并且和知识建立联系。然后使用倒排索引模型对所有知识实体进行索引。在生成阶段,对于上下文中出现的每一个主题词,就加入一个对应的知识到输入中。他们团队尝试了三种方法将知识和上下文融入到一起,分别是知识拼接上下文、上下文拼接知识以及上下文和知识相加。

我们成功举办了第四届中文人机对话技术评测,提出了两个任务,并对两项任务的前3名评测结果进行了具体分析,希望我们的工作可以对未来评测技术的发展提供一些启发。