谷歌发布Coarse Discourse:最大在线讨论数据集
选自Google Research Blog
作者:Praveen Paritosh等
机器之心编译
参与:蒋思源
近日,谷歌官方研究博客发布了一个开源数据集,该数据集包含10万多条经标注的在线讨论语料,是迄今为止最大的在线讨论标注数据集。该数据集的构建者希望其能进一步推动机器学习和自然语言处理研究的进步。
项目地址:https://github.com/google-research-datasets/coarse-discourse
论文地址:https://research.google.com/pubs/pub46055.html
每天,在线社区论坛的参与者们都分享他们的观点、经验、建议和社会支持,其中大部分分享都是自由表达并且没有什么限制。而这些在线讨论通常是许多重要话题(如育儿、健身、旅游等)的关键资源。然而,这些讨论也通常混杂了一些分歧、幽默、论战等主观情感,这也就需要读者们在获取需要的信息前先过滤一遍内容。虽然信息检索(Information Retrieval)领域正积极地探索能让用户搜寻、浏览和使用这些内容更高效的方法,但始终缺少论坛讨论的数据集来更好地理解这些讨论。
为了帮助信息检索领域的研究员,我们发布了 Coarse Discourse 数据集,该数据集是迄今为止最大的在线讨论标注数据集。Coarse Discourse 数据集包含了超过 50 万人在线公开讨论的标注数据,其来源于 reddit 130 个社区超过 9000 场讨论的随机抽样结果。
为了创建这一个数据集,我们开发了一种论坛评论的粗略话语分类法,该方法通过浏览论坛主题的一个小数据集,并阅读每一条评论,然后再评价每一条评论在讨论中所起的作用。我们会利用众包人类编辑重复和修改这一过程,以验证分类话语类型的重现性,其中话语类型就包括了公告、提问、回答、同意、不同意、赞赏、消极反应、详细阐述和幽默等。在这些数据中,有超过 10 万条评论由众包编辑独立地标注了话语类型和关系。除了来自于众包编辑的原始标注外,我们同样提供了粗略话语标注任务指南,该指南帮助编辑们从其他论坛中收集数据以更进一步精炼他们的任务。
粗略话语标注任务指南:https://github.com/google-research-datasets/coarse-discourse/blob/master/rating_guidelines.pdf
上图是对一个主题中话语类型和关系进行标注的案例。先前的研究《Characterizing Online Discussion Using Coarse Discourse Sequences》表明,问题解答在大多数社区里是一个突出的使用案例,只不过一些社区会通过反复的交互更关注于会话。
对于机器学习和自然语言处理研究者来说,他们更希望描绘在线讨论的自然属性,而我们正希望这一数据集对他们是一个有用的资源。你可以访问上文项目地址中的链接下载数据集。如需获得更多的信息,可以查看此篇 ICWSM 论文。
论文:Characterizing Online Discussion Using Coarse Discourse Sequences
在该项研究中,我们提出了一种将在线讨论中的评论分类为一组粗略话语行为的新方法,该方法目的是为了更大规模地理解在线社区的讨论。为了促进该项研究,我们设计了粗略话语行为的分类类别,该分类旨在包含一般在线讨论的类别,并为众包编辑提供更便捷的标注方式。我们收集并发布了超过 9000 多个主题 10 万多条评论的语料库,并通过付费众包的方式人工标注从 Reddit 随机抽取的话语行为。通过我们的语料库,其展示了话语行为的分析如何表示不同类型的讨论,包括话语序列如 Q&A 对或争论序列。最后,我们使用该语料库进行实验并预测话语行为,我们发现结构化预测模型如条件随机场可以实现 75% 的 F1 分数。我们同样还展示了如何从简单的问题与回答到多类别来扩展话语行为,其可以提高 Q&A 抽取的召回率表现。