哈工大讯飞联合实验室三篇论文被EMNLP-IJCNLP 2019录用

admin发布

EMNLP-IJCNLP 2019(2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing)将于2019年11月3日至11月7日在中国香港举行。EMNLP是计算语言学和自然语言处理领域的顶级国际会议,由ACL旗下SIGDAT(Special Interest Group on Linguistic Data & Corpus-based Approaches to Natural Language Processing)组织,每年举办一次。据谷歌学术2019最新发布的引用数据显示,EMNLP在计算语言学类别下学术影响力排名第二。本届EMNLP-IJCNLP 2019共计收到2877个有效投稿,最终共有684篇论文被大会录用,总录用率为23.8%。

哈工大讯飞联合实验室(HFL)的三篇论文被大会录用,其中长文一篇,短文一篇,Demo展示一篇。

标题:Cross-Lingual Machine Reading Comprehension

作者:崔一鸣,车万翔,刘挺,秦兵,王士进,胡国平

领域:机器阅读理解,跨语言方法

类型:长文(Long Paper)

摘要:虽然机器阅读理解研究得到了飞速发展,多数工作面向的是英文数据,而忽略了机器阅读理解在其他语言上的表现,其根本原因在于大规模训练数据的缺失。在这篇论文中,我们提出跨语言机器阅读理解方法(Cross-Lingual Machine Reading Comprehension,CLMRC)来解决非英文下的机器阅读理解。首先我们给出了若干传统方法来实现跨语言机器阅读理解,其中包括一些zero-shot方法。紧接着我们创新地提出了Dual BERT模型,对<篇章,问题>在双语环境中建模,同时利用富资源语言来帮助低资源语言下的机器阅读理解。我们在两个中文机器阅读理解数据集上验证得知该方法能够显著提升低资源下的机器阅读理解效果,并且获得了state-of-the-art,为未来低资源下的机器阅读理解提供了一种解决方案。

标题:A Span-Extraction Dataset for Chinese Reading Comprehension

作者:崔一鸣,刘挺,车万翔,肖莉,陈致鹏,马文涛,王士进,胡国平

领域:机器阅读理解,语料资源

类型:短文(Short Paper)

摘要:机器阅读理解(MRC)在近期得到了广泛的关注。然而,现有的多数机器阅读理解数据集建立于英文文本。在本文中,我们建立了一种篇章片段抽取式的中文机器阅读理解数据集,为相关研究带来语言多样性。该数据集包含面向中文维基百科的两万个人工标注的真实问题。与此同时,我们特别建立了一个挑战集,包含了需要经过多句推理才能回答的困难问题,为篇章片段抽取式的阅读理解任务提出新的挑战。我们给出了若干基线系统以及匿名提交系统来展示该数据集的困难程度。我们希望该数据集的发布能够进一步加快中文机器阅读理解的研究。

编者注:该数据集即哈工大讯飞联合实验室在2018年举办的第二届“讯飞杯”中文机器阅读理解评测(CMRC 2018)中使用的数据集。

数据集地址:https://github.com/ymcui/cmrc2018

标题:IFlyLegal: A Chinese Legal System for Consultation, Law Searching, and Document Analysis

作者:王梓玥,王宝鑫,段兴义,伍大勇,王士进,胡国平,刘挺

领域:问答系统,信息检索,法律科技

类型:Demo展示(System Demonstration)

摘要:法律科技旨在利用高性能计算设备为用户提供便捷的法律服务并解决法律问题。为了实现这个目标,我们运用机器阅读理解、文本分类、问答和自然语言推理等自然语言处理技术,让机器学会应用法律知识,理解和分析法律文本。基于这些技术,我们研发出了一个中文法律咨询系统“法小飞”(IFlyLegal),并免费向用户开放使用。这个系统集成了自动法律咨询、法条查询和法律文书分析等功能,应用技术包括深度语义表示和多种注意力机制等自然语言处理技术。该系统是目前第一个应用了最先进的自然语言处理技术,并满足了不同用户群体需求的中文法律系统,目标用户包括律师,法官,检察官和普通群众。从2019年1月起,我们共拥有2,349个用户,以及28,238次页面浏览(数据截止至2019年6月23日)。