谷歌发布Coarse Discourse：最大在线讨论数据集

RainmtTank

2017-05-17

关注关注

选自Google Research Blog

作者：Praveen Paritosh等

机器之心编译

参与：蒋思源

近日，谷歌官方研究博客发布了一个开源数据集，该数据集包含10万多条经标注的在线讨论语料，是迄今为止最大的在线讨论标注数据集。该数据集的构建者希望其能进一步推动机器学习和自然语言处理研究的进步。

谷歌发布Coarse Discourse：最大在线讨论数据集

项目地址：https://github.com/google-research-datasets/coarse-discourse
论文地址：https://research.google.com/pubs/pub46055.html

每天，在线社区论坛的参与者们都分享他们的观点、经验、建议和社会支持，其中大部分分享都是自由表达并且没有什么限制。而这些在线讨论通常是许多重要话题（如育儿、健身、旅游等）的关键资源。然而，这些讨论也通常混杂了一些分歧、幽默、论战等主观情感，这也就需要读者们在获取需要的信息前先过滤一遍内容。虽然信息检索（Information Retrieval）领域正积极地探索能让用户搜寻、浏览和使用这些内容更高效的方法，但始终缺少论坛讨论的数据集来更好地理解这些讨论。

为了帮助信息检索领域的研究员，我们发布了 Coarse Discourse 数据集，该数据集是迄今为止最大的在线讨论标注数据集。Coarse Discourse 数据集包含了超过 50 万人在线公开讨论的标注数据，其来源于 reddit 130 个社区超过 9000 场讨论的随机抽样结果。

为了创建这一个数据集，我们开发了一种论坛评论的粗略话语分类法，该方法通过浏览论坛主题的一个小数据集，并阅读每一条评论，然后再评价每一条评论在讨论中所起的作用。我们会利用众包人类编辑重复和修改这一过程，以验证分类话语类型的重现性，其中话语类型就包括了公告、提问、回答、同意、不同意、赞赏、消极反应、详细阐述和幽默等。在这些数据中，有超过 10 万条评论由众包编辑独立地标注了话语类型和关系。除了来自于众包编辑的原始标注外，我们同样提供了粗略话语标注任务指南，该指南帮助编辑们从其他论坛中收集数据以更进一步精炼他们的任务。

粗略话语标注任务指南：https://github.com/google-research-datasets/coarse-discourse/blob/master/rating_guidelines.pdf

谷歌发布Coarse Discourse：最大在线讨论数据集

上图是对一个主题中话语类型和关系进行标注的案例。先前的研究《Characterizing Online Discussion Using Coarse Discourse Sequences》表明，问题解答在大多数社区里是一个突出的使用案例，只不过一些社区会通过反复的交互更关注于会话。

对于机器学习和自然语言处理研究者来说，他们更希望描绘在线讨论的自然属性，而我们正希望这一数据集对他们是一个有用的资源。你可以访问上文项目地址中的链接下载数据集。如需获得更多的信息，可以查看此篇 ICWSM 论文。

论文：Characterizing Online Discussion Using Coarse Discourse Sequences

谷歌发布Coarse Discourse：最大在线讨论数据集

在该项研究中，我们提出了一种将在线讨论中的评论分类为一组粗略话语行为的新方法，该方法目的是为了更大规模地理解在线社区的讨论。为了促进该项研究，我们设计了粗略话语行为的分类类别，该分类旨在包含一般在线讨论的类别，并为众包编辑提供更便捷的标注方式。我们收集并发布了超过 9000 多个主题 10 万多条评论的语料库，并通过付费众包的方式人工标注从 Reddit 随机抽取的话语行为。通过我们的语料库，其展示了话语行为的分析如何表示不同类型的讨论，包括话语序列如 Q&A 对或争论序列。最后，我们使用该语料库进行实验并预测话语行为，我们发现结构化预测模型如条件随机场可以实现 75% 的 F1 分数。我们同样还展示了如何从简单的问题与回答到多类别来扩展话语行为，其可以提高 Q&A 抽取的召回率表现。

谷歌 discourse 大数据

安科网

谷歌发布Coarse Discourse：最大在线讨论数据集

RainmtTank

RainmtTank

相关推荐

谷歌正在测试一个人工智能系统，帮助视障人士参加跑步比赛

谷歌概述了2021年的Android应用开发与政策变动规划

全面解读谷歌云人工智能如何为机器学习提供帮助

Python之父，现在成为微软打工人

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

研究员准备让智能设备用AI来判断你的声音来自哪里

17款Android App被强制删除，Google Play商店发现恶意软件已感染数百万设备

华为谈安卓：无惧谷歌技术中断，鸿蒙系统下月登陆手机

苹果正秘密开发自家搜索功能谷歌地位会被取代吗？

封了TikTok，印度又要动谷歌？

危险信号：谷歌AI把戴口罩的女性识别为被胶带封嘴的女人

谷歌、脸书、亚马逊……这10大科技巨头都在使用Python

美最高法院将对甲骨文诉谷歌Android代码案作出终审裁定

前谷歌机器人主管打造出能够灵活延伸的辅助机器人

现在知道还不算晚，输入示例自动生成代码，谷歌开源这项神器要火

谷歌为Chronicle网络安全平台引入威胁检测功能

谷歌推出 Go 版 Android 11，适用于入门级设备

鸿蒙距离安卓还有多远？

谷歌保持技术竞争力的秘诀：以全球规模工程为先

74KB图片也高清，谷歌用神经网络打造图像压缩新算法

RainmtTank