第二届中国“AI+”创新创业大赛–自然语言处理技术创新大赛数据集简介
第二届中国“AI+”创新创业大赛–自然语言处理技术创新大赛(以下简称“大赛”)将于2019年5月至11月举行。
本次自然语言处理技术大赛由中国人工智能学会主办,认知智能国家重点实验室承办。
自然语言处理作为人工智能技术中重要的一个研究领域,近年来得到了快速发展,新模型和新方法层出不穷。本次大赛是为了进一步促进中文自然语言技术的发展, 同时为从事中文自然语言处理研究的研究人员、产业界从业人员以及AI技术爱好者提供一个良好的沟通平台。
现将2019第二届中国“AI+”创新创业大赛–自然语言处理技术创新大赛的数据介绍如下:
(1)数据总体概况
数据共分为四部分:知识图谱数据、每个实体的百科页面内容、历史知识问答的开发集。
链接: https://pan.baidu.com/s/1ziSMMx9eeKl7TGJIvgiOPg 提取码: 9u6j
数据加密密码:报名成功后发送到负责人邮箱
(2)知识图谱数据
a. 历史概念树
历史概念树为手工构建,共678个概念节点,下图为“世界历史”概念的树状关系。详细的概念树见文件,共提供了OWL和txt两种格式的概念树存储方式。

数据地址:网盘/CAAI2019history_data/kg_info/history-tree.zip
b. 实体结构化信息
每一个实体的结构化信息为一条json数据,示例如下:


各字段详见下表:
数据地址:网盘/CAAI2019history_data/kg_info/history-kg-all.zip
(3)实体百科页面
实体的百科页面内容为html格式(每个文件以实体id号命名),具体如下:


数据地址:数据地址:网盘/CAAI2019history_data/web_txt/
(4)历史知识问答的开发集
Key为‘问题’和‘答案’,示例如下:
{“问题”: “拜占庭帝国灭亡的时间是________年。”, “答案”: “1453”}
一行一条json数据
数据地址:数据地址:网盘/CAAI2019history_data/历史知识问答开发集Json.zip
本文来源:中国人工智能学会官方网站