第二届中国“AI+”创新创业大赛–自然语言处理技术创新大赛数据集简介

于2019年11月4日2019年11月4日由admin发布

第二届中国“AI+”创新创业大赛–自然语言处理技术创新大赛（以下简称“大赛”）将于2019年5月至11月举行。
本次自然语言处理技术大赛由中国人工智能学会主办，认知智能国家重点实验室承办。

自然语言处理作为人工智能技术中重要的一个研究领域，近年来得到了快速发展，新模型和新方法层出不穷。本次大赛是为了进一步促进中文自然语言技术的发展，同时为从事中文自然语言处理研究的研究人员、产业界从业人员以及AI技术爱好者提供一个良好的沟通平台。
现将2019第二届中国“AI+”创新创业大赛–自然语言处理技术创新大赛的数据介绍如下：

（1）数据总体概况

数据共分为四部分：知识图谱数据、每个实体的百科页面内容、历史知识问答的开发集。
链接: https://pan.baidu.com/s/1ziSMMx9eeKl7TGJIvgiOPg 提取码: 9u6j
数据加密密码：报名成功后发送到负责人邮箱

（2）知识图谱数据

a. 历史概念树
历史概念树为手工构建，共678个概念节点，下图为“世界历史”概念的树状关系。详细的概念树见文件，共提供了OWL和txt两种格式的概念树存储方式。

数据地址:网盘/CAAI2019history_data/kg_info/history-tree.zip
b. 实体结构化信息
每一个实体的结构化信息为一条json数据，示例如下：

各字段详见下表：
数据地址:网盘/CAAI2019history_data/kg_info/history-kg-all.zip

（3）实体百科页面

实体的百科页面内容为html格式（每个文件以实体id号命名），具体如下：

数据地址：数据地址:网盘/CAAI2019history_data/web_txt/

（4）历史知识问答的开发集

Key为‘问题’和‘答案’，示例如下：
{“问题”: “拜占庭帝国灭亡的时间是________年。”, “答案”: “1453”}
一行一条json数据
数据地址：数据地址:网盘/CAAI2019history_data/历史知识问答开发集Json.zip

本文来源：中国人工智能学会官方网站

第二届中国“AI+”创新创业大赛–自然语言处理技术创新大赛数据集简介

学术交流

第二届认知智能与大数据技术研讨会成功举办

实验室动态

《通用大模型评测体系2.0》正式发布，认知智能全国重点实验室牵头制定

实验室动态

认知智能全国重点实验室第一届学术委员会第二次会议顺利召开

第二届中国“AI+”创新创业大赛–自然语言处理技术创新大赛数据集简介

相关文章

学术交流

第二届认知智能与大数据技术研讨会成功举办

实验室动态

《通用大模型评测体系2.0》正式发布，认知智能全国重点实验室牵头制定

实验室动态

认知智能全国重点实验室第一届学术委员会第二次会议顺利召开