SMP 2020 第四届中文人机对话技术评测(ECDT)开始启动
“第九届全国社会媒体处理大会(The Eighth China National Conference on Social Media Processing)”将于2020年9月4日在杭州召开。全国社会媒体处理大会专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标,会议将以社交网络的形式改变传统的学术会议交流体验。全国社会媒体处理大会每年举办一次,现已成为社会媒体处理的重要学术活动。第九届全国社会媒体处理大会(SMP 2020)由中国中文信息学会社会媒体处理专委会主办,浙江大学承办。
在本届SMP会议上,我们继续举办中文人机对话技术评测(ECDT)。近年来,人机对话技术受到了学术界和产业界的广泛关注。学术上,人机对话是人机交互最自然的方式之一,其发展影响及推动着语音识别与合成、自然语言理解、对话管理以及自然语言生成等研究的进展;产业上,众多产业界巨头相继推出了人机对话技术相关产品,如个人事务助理、虚拟情感陪护机器人、娱乐型聊天机器人等等,并将人机对话技术作为其公司的重点研发方向。以上极大地推动了人机对话技术在学术界和产业界的发展。
本届中文人机对话技术评测由中国中文信息学会社会媒体处理专委会主办,哈尔滨工业大学、科大讯飞股份有限公司、清华大学承办,华为公司提供奖金。旨在促进中文人机对话系统相关研究的发展,为人机对话技术相关的学术研究人员和产业界从业人员提供一个良好的沟通平台。在此,评测会务组诚邀各个单位参加本次人机对话技术评测活动!
评测内容
评测任务概述
本届人机对话技术评测主要包括两个任务,参赛者可以选择参加任意一个任务或全部任务。
任务1:小样本对话语言理解技术评测
【背景介绍】
近年来,人工智能在深度学习方法的帮助下取得了令人瞩目的成就。然而目前的深度学习方法都需要大量的标注训练数据,而在真实的落地场景下,大量人工标注数据往往是很难获得的。以任务型对话为例,产品开发时往往难以获得待开发功能的真实用户语料。即使有生语料,任务型对话开发也面临着人工数据标注成本高昂的挑战。同时,像对话系统这样的人工智能应用往往面临着需求频繁变化的问题,导致繁重数据标注任务常常需要反复进行。反观人类,人在学习一个新的任务时只需要少数几个样例。这种巨大的反差启发科研人员开始探索能够像人一样,利用先前经验和少量数据进行学习的人工智能系统。

小样本学习(Few-shot Learning)就是专门针对上述问题的新兴研究方向。小样本学习专门研究如何利用过往经验知识,在新的任务上只使用少数几个样例数据进行学习,通常在新的任务上每个类别只有1-5个样例数据。关于小样本的研究以往主要集中在图像领域,自然语言领域的小样本研究有着独特的挑战且有较大的实际意义,是非常值得探索的新兴研究领域。
本次评测中,我们着眼于任务型对话系统中对话语言理解任务(SLU,Spoken Language Understanding)的小样本学习问题。对话语言理解是任务型对话系统的关键组成模块,它负责将用户输入的自然语言转化为结构化的语义框架(Semantic Frame),为后续的对话管理模块和回复生成模块提供支持。如图二所示,任务型对话频繁面临新的需求和领域,而SLU模块针对不同领域的标注规范往往差异较大,使得SLU模块经常面临数据不足的严峻考验。综上,本次评测既有开拓自然语言下小样本问题的研究意义,同时也兼有切实的实际应用意义。
【任务描述】
对话语言理解SLU(Spoken Language Understanding)是任务型对话系统的关键组成模块,它把用户的自然语言输入(Utterance)转化为结构化信息(Semantic Frame)以为后续的对话状态管理和回复生成提供支持。其中Semantic Frame包括用户意图(Intent)和语义槽(Slot)。
区别于普通的对话语言理解,本评测关注小样本学习场景,即每个测试类别只有几个标注样例。具体任务如图三所示,模型先在一些数据充足的领域训练,然后在未见的新领域上测试。针对一个领域,我们每次给定模型一个带标注的支撑样本集(Support Set)作为参考,让模型对任意未见过的查询样本集(Query Set)标注用户意图和槽位。以图三中测试领域为例,给定Support Set,和Query句“播放阿凡达”,模型需要预测出意图为“播放电影”,槽位为【电影:阿凡达】。(通常训练时为模拟小样本情形,训练领域数据也会构造为Support-Query 形式训练模型,这里我们不做强制要求)

【评测方式】
1. 训练数据集:
若干富数据领域的单轮对话语料,每条语料标注有意图Intent和语义槽Slot。
评测队伍可以视自己需要对数据进行处理、训练。
2. 测试数据集:
若干个训练集未出现领域的数据,每个领域公开一个支撑集Support Set,模型在对应查询集Query Set上进行评测,Query Set数据不公开。
每个Support Set保证任意一个意图类别和语义槽类别至少被3条语料覆盖。每个Domain中意图类别有5-10种,语义槽类别有5-20种。
(评测队伍针对每个领域提交一个模型文件,不同领域的数据和测试过程彼此独立。)
3. 开发数据集:
格式同测试数据,我们同时公开每个领域的Support Set数据和Query Set数据。
评测队伍根据自己的需要使用。
4. 数据格式:
数据采用json格式,每条语料的标注格式如下:

【评价指标】
评测队伍为每个测试领域提交一个模型文件,评测系统使用参赛队伍提供模型在每个测试领域的Query Set上进行Intent和Slot预测。具体评价方式如下:
· 对于小样本意图分类任务,我们采用准确率(acc)来评价,当意图识别的结果和标准答案相同时才被认为正确。
· 对于小样本语义槽填充任务,我们采用F1-score作为评价指标,当预测的槽位的一个key-value组合与标准答案的一个key-value组合完全一致视为一个正确预测。
· 综合评价,我们采用句准确率(sentence acc)来衡量模型意图识别和语义槽填充的综合能力,当一句话Intent和Slot都识别正确才算正确预测,其余算错误预测。
我们会给出三项分别排名作为参考,最终比赛排名以sentence acc为准。
【奖励设置】
一等奖(1名)20,000元
二等奖(2名)各10,000元
三等奖(4名)各2,500元
【任务负责人】
车万翔(哈尔滨工业大学)
联系人:侯宇泰(哈尔滨工业大学)、茅佳峰(哈尔滨工业大学)
联系方式:
茅佳峰-jfmao@ir.hit.edu.cn
侯宇泰-ythou@ir.hit.edu.cn
任务2:知识驱动的多轮对话竞赛
【背景介绍】
在人机对话系统领域,尽管对话生成的任务得到了广泛的研究,但是对于驱动对话生成的知识的建模却由于缺少数据支持亟待研究。如可以在多轮人机对话中有效的对知识的交互进行建模,则可以极大地提升人机对话系统的逻辑性,信息量,可解释性等智能化程度,从而带来更好的用户体验。
【任务描述】
在对话场景下,已知对话上下文和所有知识图谱信息,要求生成符合知识图谱信息与上下文逻辑的对话回复。
知识图谱由一系列三元组(如<头实体,关系,尾实体>)描述。
所生成的对话回复需要足够流畅、与对话上下文语义相关并且符合相关的知识图谱信息。
【数据介绍】
本竞赛所准备的数据被分为三部分:训练集、验证集与测试集,其中训练集和验证集开放给各参赛队。测试集在竞赛结束前不会开放给参赛队。
训练集:训练集中包含三个领域各 1200 个对话,每个对话平均19轮,以及与这些对话相关的知识图谱信息和知识标注。
验证集:验证集与训练集独立同分布采样构成,包含三个领域各 150 个对话,以及与这些对话相关的知识标注。
测试集:测试集的构造方法与验证集相同,但是为模拟实际应用场景,仅提供对话文本作为上下文,由模型根据当前上下文以及训练集提供的知识图谱生成对话回复。
【数据实例】
utterance 为对话文本,knowledge 为当前轮次对话应用的知识三元组标注,知识图谱信息由相同的知识三元组构成(规模较大不在此展示),以c下列出的是训练集的对话数据实例(包含对话文本信息和相关知识标注)。测试集为模拟实际应用场景,仅提供对话文本作为上下文,由模型根据当前上下文以及训练集提供的知识图谱生成对话回复。验证集为便于参赛者开发模型调整参数,同时开放对话文本与知识标注信息,与训练集构造相同。

【评价规则】
1. 自动评价
初赛阶段采用自动评价指标,参赛队需提交自己的模型。模型在测试集上的性能将会作为排名依据。
自动评测所使用的指标包括:
BLEU-4:评估输出回复相对于标准回复的n-gram重合度。
Distinct-2:评估输出回复的多样性。
我们会分别计算各个模型在以上两个指标上的排名,并以每个指标排名的平均值作为排行榜的排序依据(排名相同时按照BLEU-4,Distinct-2 的顺序比较各项指标数值大小确定名次)。
2.人工评价
决赛阶段选取排行榜中排名前10的对话系统进入人工评估。人工评估过程中会在三个领域的测试集中各选取100个对话样例,并使用众包的方式对各参赛队所生成的回复在如下两个方面进行评价:
Informativeness:生成回复包含相关知识图谱信息量。
Appropriateness:生成回复是否符合人们的日常交流习惯。
最终排名以人工评估结果为依据。
【奖金分配】
一等奖(1名)20,000元
二等奖(2名)各10,000元
三等奖(2名)各5,000元
【相关资源】
论文:
KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn Knowledge-driven Conversation
数据集: https://github.com/thu-coai/KdConv
【任务负责人】
黄民烈(清华大学)
联系人:郑楚杰(清华大学),周昊(清华大学)
联系方式:
周昊:zhouhao16@mails.tsinghua.edu.cn
郑楚杰-:zcj16@mails.tsinghua.edu.cn
任务1、2评测方式
本次评测将主要采用Codalab平台作为评测方式,数据及CodaLab平台将于2020年6月15日上线
注册报名
有意向参加的单位机构请直接填写在线报名表。
扫描二维码进入在线报名表填写。

报名存在任何问题,请联系评测会务组:smp2020ecdt@163.com
重要日期
以下所有时间点为北京时间(GMT+8)11:59 PM。
(除报名时间以外,其他时间点可能会有变动,请注册参加者密切关注本网站以及邮件通知。)
事件 | 时间 |
报名 | 2020年5月18日-2020年6月15日 |
数据及CodaLab上线 | 2020年6月15日 |
所有任务提交与自动评测 | 2020年6月16日-2020年8月5日 |
人工评价 | 2020年8月5日-2020年8月20日 |
评测结束,公布结果 | 2020年8月20日 |
撰写技术报告 | 2020年8月20日-2020年9月1日 |
SMP2020大会期间召开ECDT研讨会及颁奖典礼 | 2020年9月4日-2020年9月6日 |
论文发表
本技术评测将与国际期刊Data Intelligence合作,获奖的优秀模型将有机会以单独或综述的方式在该刊上发表技术论文,发表的论文将会获得期刊颁发的奖励。
评测委员会
主席:张伟男(哈尔滨工业大学)
副主席:陈志刚(科大讯飞)、车万翔(哈尔滨工业大学)、黄民烈(清华大学)、李林琳(华为公司)
评测委员会成员:朱才海(哈尔滨工业大学)、侯宇泰(哈尔滨工业大学)、茅佳峰(哈尔滨工业大学)、郑楚杰(清华大学)、周昊(清华大学)
联系方式
如果有任何与本次评测相关的问题,请随时联系会务组。
评测会务组邮箱:smp2020ecdt@163.com
致谢
主办方:中国中文信息学会社会媒体处理专业委员会(CIPS-SMP)
承办方:哈尔滨工业大学社会计算与信息检索研究中心(哈工大SCIR)、科大讯飞股份有限公司(iFLYTEK)、清华大学(CoAI)
赞助方:华为公司