第二届中国“AI+”创新创业大赛--自然语言处理技术创新大赛通知
各相关单位:
2019第二届中国“AI+”创新创业大赛--自然语言处理技术创新大赛(以下简称“大赛”)将于2019年5月至11月举行。
自然语言处理作为人工智能技术中重要的一个研究领域,近年来得到了快速发展,新模型和新方法层出不穷。为了促进中文自然语言技术的发展,中国人工智能学会特此主办本次自然语言处理技术大赛。为从事中文自然语言处理研究的研究人员、产业界从业人员以及AI技术爱好者提供一个良好的沟通平台。
现将2019第二届中国“AI+”创新创业大赛--自然语言处理技术创新大赛的有关事项通知如下:
一、大赛机构
1.主办单位
中国人工智能学会
2.组织单位
科大讯飞股份有限公司
3. 承办单位
认知智能国家重点实验室(科大讯飞)
哈尔滨工业大学社会计算与信息检索研究中心
苏州大学先进数据分析研究中心
4. 评测委员会
主 席:
陈志刚(认知智能国家重点实验室)
副主席:
车万翔(哈尔滨工业大学社会计算与信息检索研究中心)
刘铭(哈尔滨工业大学社会计算与信息检索研究中心)
李直旭(苏州大学先进数据分析研究中心)
二、参赛办法
1.参赛对象
本次大赛是面向全国高校,科研机构,和涉及自然语言处理、数据挖掘、知识图谱等技术的人工智能领域企业的赛事,欢迎各单位积极组织队伍申报参赛。
2.参赛组队形式
选手可在网上自行组队报名,每支队伍包含 3-5 名队员,选手的地区、年龄、职业不限,每队至少有一名中国国籍选手。
以公司为单位参赛,需已注册成立企业;高校以团队为单位参赛,需由指导教师带领。参赛个人及单位要求无不良记录;参赛项目的产品、技术及相关专利专属于参赛团队及个人,与其他任何单位或个人无产权纠纷,如在参赛期间发现有侵犯外单位知识产权或盗用成果等纠纷,一经核实,立即终止该参赛队参赛资格,取消其已获得的奖项。
3. 报名方式
2019年6月30日前,参赛队伍在大赛网站(https://aichina.caai.cn/)的报名系统中在线报名,完成相关信息录入,完成报名。(有特殊要求的各赛区自行确定后可以向大赛组委会提出需求)
4. 参赛选题
(1)竞赛背景
近年来深度学习在语音、图像、自然语言处理等人工智能任务中均取得令人瞩目的突破,而实际的自然语言处理任务大多是复杂综合性任务,知识问答作为自然语言领域一个重要的子领域,吸引了众多研究者的关注,通过在结构化或者非结构化的文本数据中寻找问题答案,属于综合性的自然语言处理研究子方向,比较全面体现了自然语言处理的技术水平。本赛题选择历史知识问答,是为了考察自然语言处理多项技术的综合运用能力,从试题的语义理解、外部知识的综合运用两个方面考察机器的认知智能能力。
(2)赛题描述
本次赛题是基于中文历史知识图谱以及对应实体相关的百科页面内容,实现中文历史知识问答系统。即给定一个中文历史知识类问题,问答系统从给定的知识库和实体相关的百科页面内容中选择若干信息作为该问题的答案。具体的题型为填空题。
输入:输入文件包含若干行填空题题干,每行一个题目。
输出:输出文件每行对应一个填空题的答案列表,多个答案使用 分隔,文件编码采用utf8编码。
题目示例:
1)我国历史上唯一的女皇帝______
2)唐朝进入全胜时期,史称“开元盛世”的皇帝______
3)结果南北朝的分裂局面,建立隋朝的皇帝______
4)世界上最早的纸币______
答案示例:
1)武则天
2)李隆基
3)杨坚
4)交子
特别说明:
当问题所涉及的事实与知识库不一致时,以知识库中数据为准。
当问题从所提供的知识图谱和百科文档中都可以找到多个答案时,命中任何一个答案均可。比如问题:唐朝进入全胜时期,史称“开元盛世”的皇帝,回答“唐玄宗”或“李隆基”都对。
(3)模型训练
主办方提供如下解题思路供参赛选手参考,选手可按照如下思路开发历史知识问答模型,也可选择其他人工智能方法,思路不限。
参考解题思路:
步骤一:构建基于知识图谱的问答系统
步骤二:构建基于实体非结构化知识文档的问答系统
步骤三:以一定融合策略融合两个模型的结果
(4)训练集数据介绍
主办方发布两种资源:
1)历史知识图谱,大致规模为:实体约64万、三元组约467万,每个实体相关的百科页面。
2)历史知识问答题目(题型为填空)共2000题,作为示例开发集。
5.作品要求
参赛队的参赛内容应该是参赛队员独立设计、开发完成的作品,严禁抄袭、剽窃等行为。凡发现抄袭、剽窃等行为,将取消参赛队伍的参赛资格,并追究相关指导教师和单位的责任。
三、竞赛时间安排
2019年5月10日:发布大赛通知,开始报名
2019年5月20日:发布比赛训练集数据和具体评测方案
2019年6月30日:报名截止
2019年8月31日:提交测试集结果截止日
2019年9月5日:提交最终测试结果对应的系统代码及系统报告
2019年9月25日:决赛名单公布
2019年10月下旬或11月上旬:决赛和颁奖
四、竞赛赛制
1.比赛整体流程
(1)初赛:参赛队需于2019年6月30日前完成报名,并在数据发布之后从网站获取主办方发布的比赛用历史知识图谱和相应实体页面资源、示例开发集。之后即可开始数据处理与问答系统构建,2019年6月20日起可以online提交各自开发系统的网络ip地址参与测试结果评测排名,2019年8月31日为最后系统提交更新日。2019年9月5日前,各参赛队需要提交系统源码,和介绍所提交模型、方法和架构方面的系统报告。
(2)决赛:决赛将于2019年10月下旬或11月上旬组织,具体形式初定为由晋级队伍进行ppt讲演,由专家评议给出打分,再结合初赛得分给出最终名次。决赛的具体时间和形式将另行通知。
2.初赛评测规则
主办方将对参赛队伍产生的测试结果与比赛主办方公布的标准结果进行相似性评估,最终得到各参赛队伍初赛作品的准确度(Accuracy)。考虑到基于文档的问答可能会给出近似但不完全匹配的答案,我们将采用模糊匹配的方法来判定结果的正确性,满足指定相似度阈值的答案将被判定为正确答案。
参赛队伍请自行使用官网上的测评程序对训练数据集的编译结果进行评估,如参赛队伍产生的分类结果文件未能与官网上的评估程序相兼容,则需自行对结果格式进行调整和修改。
比赛主办方评选获奖者的主要依据:
1) 参赛作品在测试数据集上达到的准确度值;
2) 训练过程成使用模型的新颖程度和创新性。
3.参赛规则介绍
1)允许使用开源代码、工具和公开数据集,及参赛队伍自己以往开发未公开的代码和数据集。
2) 经组委会评估后确认获决赛资格;如拒绝或未在规定时间内提供相应代码和文档则取消决赛资格。
五、奖项设置
本赛事预选8队进入决赛,最终角逐出冠军1队、亚军2队、季军3队,对应奖励如下:
冠军赛队(1队)奖金15000元人民币/队;
亚军赛队(2队)奖金10000元人民币/队;
季军赛队(3队)奖金 5000元人民币/队。
六、竞赛管理
1.参赛费用
本次参赛不收取任何费用。
2.餐饮住宿
参加决赛队伍的教师和学生在决赛期间的食宿费用、交通费用及其他费用均自理。
3.竞赛秘书处联系方式
报名网站:https://aichina.caai.cn/
报名、赛务等联系人:牛雷
电话:15051540646
2019第二届中国“AI+”创新创业大赛
--自然语言处理技术创新大赛
中国人工智能学会
2019年5月10日