阿里巴巴刷新世界纪录 人工智能的阅读能力历史上首次超越人类!

2018年伊始,人工智能取得重大突破!1月11日,由斯坦福大学发起的机器阅读理解领域顶级赛事SQuAD刷新排名,令业界振奋的是人工智能的阅读能力历史上首次超越人类。阿里巴巴凭借82.440的精准率打破了世界纪录,并且超越了人类82.304的成绩。

阿里巴巴刷新世界纪录 人工智能的阅读能力历史上首次超越人类!

SQuAD的负责人Pranav Rajpurkar难掩兴奋之情。他在社交媒体上表示,2018年一个强劲的开始,第一个模型(阿里巴巴iDST团队提交的SLQA +)在精准度匹配上超越人类表现!下一个挑战:模糊匹配,人类仍然领先2.5分!

什么是SQuAD?

SQuAD 是由 Rajpurkar 等人[1]提出的一个最新的阅读理解数据集。该数据集包含 10 万个(问题,原文,答案)三元组,原文来自于 536 篇维基百科文章,而问题和答案的构建主要是通过众包的方式,让标注人员提出最多 5 个基于文章内容的问题并提供正确答案,且答案出现在原文中。SQuAD 和之前的完形填空类阅读理解数据集如 CNN/DM[2],CBT[3]等最大的区别在于:SQuAD 中的答案不在是单个实体或单词,而可能是一段短语,这使得其答案更难预测。

SQuAD 包含公开的训练集和开发集,以及一个隐藏的测试集,其采用了与 ImageNet 类似的封闭评测的方式,研究人员需提交算法到一个开放平台,并由 SQuAD 官方人员进行测试并公布结果。

SQuAD是行业内公认的机器阅读理解顶级赛事,吸引了包括谷歌、卡内基·梅隆大学、斯坦福大学、微软亚洲研究院、艾伦研究院、IBM、Facebook等知名企业研究机构和高校的深度参与。

此次技术的重大突破源于阿里巴巴研究团队提出的“基于分层融合注意力机制”的深度神经网络模型。该模型能够模拟人类在做阅读理解问题时的一些行为,包括结合篇章内容审题,带着问题反复阅读文章,避免阅读中遗忘而进行相关标注等。

自从 SQuAD 数据集公布以来,大量具有代表性的模型纷纷涌现,极大地促进了机器阅读理解领域的发展。总的来说,由于 SQuAD 的答案限定于来自原文,模型只需要判断原文中哪些词是答案即可,因此是一种抽取式的 QA 任务而不是生成式任务。几乎所有做 SQuAD 的模型都可以概括为同一种框架:Embed 层,Encode 层,Interaction 层和 Answer 层。Embed 层负责将原文和问题中的 tokens 映射为向量表示;Encode 层主要使用 RNN 来对原文和问题进行编码,这样编码后每个 token 的向量表示就蕴含了上下文的语义信息;Interaction 层是大多数研究工作聚焦的重点,该层主要负责捕捉问题和原文之间的交互关系,并输出编码了问题语义信息的原文表示,即 query-aware 的原文表示;最后 Answer 层则基于 query-aware 的原文表示来预测答案范围。

模型可以在捕捉问题和文章中特定区域关联的同时,借助分层策略,逐步集中注意力,使答案边界清晰;另一方面,为避免过于关注细节,采用融合方式将全局信息加入注意力机制,进行适度纠正,确保关注点正确。

阿里巴巴自然语言处理首席科学家司罗表示,“对于解决wiki类客观知识问答,机器已经取得非常好的结果,我们将继续向对通用内容的能理解会思考的终极目标迈进。今后,研发的重点在于把这项技术真正应用在广大实际场景,让机器智能普惠生活。”

实事上,这项技术已经在阿里巴巴内部被广泛使用。比如,每年双11都会有大量的顾客对活动规则进行咨询。阿里小蜜团队通过使用司罗团队的技术,让机器直接对规则进行阅读,为用户提供规则解读服务,是最自然的交互方式。

再比如,顾客还会针对单个商品询问大量的基础问题,而这些问题其实在商品详情页都是有答案的。现在通过机器阅读理解技术,能够让机器对详情页中的商品描述文本进行更为智能地阅读和回答,降低服务成本的同时提高购买转化率。

由司罗领导的自然语言处理团队支撑了阿里巴巴整个生态的技术需求。由他们研发的AliNLP自然语言技术平台每日调用1200亿+次,Alitranx 翻译系统提供20个语种在线服务日调用量超过7亿+次。此前曾在2016年ACM CIKM 个性化电商搜索、2017年IJCNLP中文语法检测CGED评测、2017年年美国标准计量局TAC评比英文实体分类等大赛中取得全球第一的成绩。

相关推荐