资源｜谷歌开源机器阅读理解数据集MC-AFP

lixgjob

2016-12-16

选自GitHub

机器之心编译

参与：李亚洲

资源｜谷歌开源机器阅读理解数据集MC-AFP

MC-AFP 是一个基于公众可用的 Gigaword 数据集（AFP 部分）生成的机器理解数据集。创造这样数据集的技术在论文「Building Large Machine Reading-Comprehension Datasets using Paragraph Vectors」中有所报告。

我们生成了一个大约有 2 百万样本的数据集，在上面估算人类的准确率大概为 90%。一种结合了循环神经网络的表征能力与全连接多层网络判别能力的全新神经网络架构在此数据集上取得的最好结果是：83.2% 的准确率。

压缩包中附上的是加密的 MC-AFP 数据集以及密码。

项目地址：https://github.com/google/mcafp

论文：Building Large Machine Reading-Comprehension Datasets using Paragraph Vectors

摘要：我们提出的技术对机器阅读理解任务有双重贡献：使用 paragraph-vector 模型创造大型机器理解（MC）数据集的技术；一种全新的、混合的神经网络架构，它结合了循环神经网络的表征能力与全连接多层网络的判别能力。我们使用 MC-数据集生产技术建立了一个大约 2 百万样本的数据集，在上面我们凭借经验判断出了人类水平（大约 91）的准确率，以及各种计算机模型的表现。在我们试验过的所有模型中，我们的混合神经网络架构获得了最高的表现（83.2）的准确率。该架构与人类水平之间的差距为未来模型的提升提供了足够的空间。

论文地址：https://arxiv.org/pdf/1612.04342v1.pdf

谷歌大数据神经网络

安科网

资源｜谷歌开源机器阅读理解数据集MC-AFP

lixgjob

lixgjob

相关推荐

华为突破封锁，对标谷歌Dropout专利，开源自研算法Disout

谷歌正在测试一个人工智能系统，帮助视障人士参加跑步比赛

谷歌概述了2021年的Android应用开发与政策变动规划

全面解读谷歌云人工智能如何为机器学习提供帮助

Python之父，现在成为微软打工人

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

研究员准备让智能设备用AI来判断你的声音来自哪里

17款Android App被强制删除，Google Play商店发现恶意软件已感染数百万设备

华为谈安卓：无惧谷歌技术中断，鸿蒙系统下月登陆手机

苹果正秘密开发自家搜索功能谷歌地位会被取代吗？

封了TikTok，印度又要动谷歌？

危险信号：谷歌AI把戴口罩的女性识别为被胶带封嘴的女人

谷歌、脸书、亚马逊……这10大科技巨头都在使用Python

美最高法院将对甲骨文诉谷歌Android代码案作出终审裁定

前谷歌机器人主管打造出能够灵活延伸的辅助机器人

现在知道还不算晚，输入示例自动生成代码，谷歌开源这项神器要火

谷歌为Chronicle网络安全平台引入威胁检测功能

谷歌推出 Go 版 Android 11，适用于入门级设备

鸿蒙距离安卓还有多远？

谷歌保持技术竞争力的秘诀：以全球规模工程为先

lixgjob