资源:自然语言处理数据集、语料库和论文集合
机器之心报道
问答系统
MS MARCO:人工生成的机器阅读理解数据集,来自微软,2016。
论文:https://arxiv.org/abs/1611.09268
数据:http://www.msmarco.org/
NewsQA:Maluuba 的机器理解数据集,2016。
论文:https://arxiv.org/abs/1611.09830
数据:https://github.com/Maluuba/newsqa
SQuAD:超过 100,000 个问题和其机器理解文本的数据集,由斯坦福大学推出,2016。
论文:https://arxiv.org/abs/1606.05250
数据:https://rajpurkar.github.io/SQuAD-explorer/
GraphQuestions:一个特征丰富的事实性问题回答数据集,来自 EMNLP 16 论文《On Generating Characteristic-rich Question Sets for QA Evaluation》,2016。
论文:http://suo.im/4u7oFE
数据:https://github.com/ysu1989/GraphQuestions
Story Cloze:一个常见故事的语料库和有关故事的总结性语句,来自美国罗切斯特大学,2016。
论文:https://arxiv.org/abs/1604.01696
数据:http://cs.rochester.edu/nlp/rocstories/
Children's Book Test:金发女孩原则(当给定样品的一些属性可以从一个极端到另一个极端(例如从极冷至极热)的尺度分布时,一些数据将落在这些极端之间): 以内存显式方式表示的儿童图书,2015。
论文:https://arxiv.org/abs/1511.02301
数据:http://cs.rochester.edu/nlp/rocstories/
SimpleQuestions:大量使用记忆网络的简单问答数据,2015。
论文:https://arxiv.org/pdf/1506.02075v1.pdf
数据:http://suo.im/2eiX0O。
WikiQA:一个开放问题与回答的挑战数据集,由微软推出,2015。
论文:http://suo.im/1bqPMh
数据:http://suo.im/3aJVyp
CNN-DailyMail:用于训练机器进行阅读理解任务的数据集,2015。
论文:https://arxiv.org/abs/1506.03340
代码:https://github.com/deepmind/rc-data
数据:http://cs.nyu.edu/~kcho/DMQA/。
QuizBowl:一个神经网络,用于长段回答事实问题,来自马里兰大学,2014。
论文:http://suo.im/2xcBDv
数据:http://suo.im/3O37SP
MCTest:一个用于开放问题机器理解文本的数据集,来自微软,2013。
论文:http://suo.im/VLBOk
数据:http://suo.im/gZDhk
QASent:Jeopardy 模型?一个用于机器问答的准同步语法数据集,2007。
论文:http://suo.im/3mxr3C
数据:http://suo.im/4mrv9H
对话系统
Ubuntu Dialogue Corpus:一个用于非结构化多回路对话系统研究的大型数据集,2015。
论文:https://arxiv.org/abs/1506.08909
数据:http://suo.im/2pbKCC
面向目标的对话系统
Frames:用于向面向目标的对话系统加入记忆的语料库,Maluuba,2016。
论文:http://suo.im/36jcl2
数据:http://datasets.maluuba.com/Frames
DSTC 2 & 3:对话状态跟踪挑战(Dialog State Tracking Challenge)2 和 3,2013。
论文:http://suo.im/2PzSZc
数据:http://camdial.org/~mh521/dstc/
自然语言处理论文
[1] Antoine Bordes, et al. 开放文本语义分析的词和意义表征的联合学习(Joint Learning of Words and Meaning Representations for Open-Text Semantic Parsing.)
[2] Mikolov, et al. 词和短语及其组合性的分布式表征(Distributed representations of words and phrases and their compositionality.) (word2vec)
[3] Sutskever, et al. 运用神经网络的序列到序列学习(Sequence to sequence learning with neural networks.)
[4] Ankit Kumar, et al. 问我一切:动态记忆网络用于自然语言处理(Ask Me Anything: Dynamic Memory Networks for Natural Language Processing.)
[5] Yoon Kim, et al. 角色意识的神经语言模型(Character-Aware Neural Language Models.)
[6] Jason Weston, et al. 走向人工智能-完成问题回答:一组前提玩具任务(Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks.) (bAbI 任务)
[7] Karl Moritz Hermann, et al. 教机器阅读和理解(Teaching Machines to Read and Comprehend.)(CNN/每日邮件完形风格问题)