EMNLP 2017|通用汽车公司:推特论证挖掘-论点、事实和来源

EMNLP 2017 Regular Papers

推特论证挖掘:论点、事实和来源

Argument Mining on Twitter: Arguments, Facts and Sources

通用汽车公司

Universite Cote dAzur

【摘要】社交媒体能在网上收集和传播个人意见、事实、假新闻以及各类用户可能感兴趣的信息。将论证挖掘方法应用于这种异构数据源是一个具有挑战性的开放研究问题,特别是考虑到用于在社交媒体上编写的文本消息的语言特殊性。此外,在处理这些平台上的观点时会出现新的问题,比如需要区分个人意见和实际事实、需要检测有关这些事实的信息的传播来源,以便进行验证。在本文中,我们运用监督分类,对推特上的观点进行了识别,并提出了两种新的论证挖掘任务,即事实识别和源识别。我们研究了在一组与希腊退欧和英国退欧新闻相关的推文,验证文中所提方法的可行性。

EMNLP 2017|通用汽车公司:推特论证挖掘-论点、事实和来源

1 引言

论证挖掘的目的是从各种各样的文本语料库中,自动提取自然语言论点以及它们之间的关系,其最终目标是为观点和推理引擎的计算模型提供机器可处理的结构化数据(Peldszus and Stede, 2013; Lippi and Torroni,2016)。到目前为止,已经提出了多种方法来解决该领域中确定的两个主要任务:1)论点提取,即检测输入自然语言文本中的观点以及进一步检测它们的边界;2)关系预测,即预测第一个任务中确定的论点之间的关系是什么。社交媒体平台如Twitter和新闻博客允许用户对某一个主题的发布自己的观点,或者在报纸上散播读到的新闻。

这些文本简短,没有标准的拼写和特定的约定(例如话题标签,表情符号),它们代表了对标准的论证挖掘方法(Snajder, 2017)的公开挑战。社交媒体数据的性质和特点也增加了在论证挖掘领域中定义新任务的必要性(Addawood and Bashir, 2016; Llewellyn et al.,2014)。

在本文中,我们讨论论证挖掘中的第一个标准任务,解决了这个研究问题:如何从Twitter挖掘论点?更进一步,我们在社交媒体的语境中也提到了以下的子问题:1) 如何区分事实论据和个人意见?2)如何自动检测事实论据的来源?为了回答这些问题,我们扩展并标注了从关于“希腊退欧”和“英国退欧”新闻中提取的twitter消息的数据集。为了解决论证检测的第一个任务,我们应用了监督分类来将有观点的推文与无观点的推文分开。通过只考虑带有观点的推文,在第二步中,我们再次应用一个监督分类器从包含观点信息的推文中来识别那些包含事实论据的推文。最后,对于所有那些在前面的步骤中被确认为事实的观点,我们依赖其在tweet中被识别的命名实体的类型来检测这些信息的来源是什么(例如:CNN)。最后两个步骤代表了论证挖掘研究领域中的新任务,而这在社交媒体应用程序中尤其重要。

EMNLP 2017|通用汽车公司:推特论证挖掘-论点、事实和来源

2 Twitter论证挖掘

在这一节,我们将描述我们开发的用于解决以下问题的方法:1)论点检测,2)事实vs个人意见分类,3)社交媒体数据上的源识别。我们的实验设置的目标是调查任务的可行性。我们的实验设置——其目标是调查这些特殊数据的可行性——考虑到有关英国和希腊是否必须离开欧盟(即英国退欧和希腊退欧)的政治观点。

2.1 实验设置

数据集:唯一可用的,用于论证挖掘的标注推文是DART (Boscet al., 2016a)。从这类资源中包含的高度异质的主题(例如,由47位美国参议员撰写的致伊朗的信;对希腊退出欧盟的公投;苹果iWatch的发布;电视连续剧权力的游戏第五季的第四集的播出),考虑到讨论政治话题的推文通常比推特上发布的推文更有观点性结构,我们决定选出“DART数据集”的一个子集(987条tweet)做实验。然后,采用与(Bosc et al., 2016a)相同的方法,扩展了收集了900条关于英国退欧的推文数据集。从最初的帖子中,我们使用机器概率为0.5(Davis et al., 2016) 过滤掉了转发和几乎相同的推特(Jaccard距离,根据经验评估的阈值)。鉴于DART中的tweet已经被标注为task 1(包含观点/不包含观点,请参阅第2.2节),两个标注器在新提取的数据上执行相同的任务。此外,同样的标注器对两个数据集(希腊脱欧/英国脱欧)为我们实验的其他两个任务进行了标注,即1)给定包含观点的推文,把推文标注为包含事实论据或包含个人意见(见第2.3节);2)给出事实信息推文,当显示引用时标注它们的源(见第2.4节)。表1、2和3包含了数据集的统计信息。

EMNLP 2017|通用汽车公司:推特论证挖掘-论点、事实和来源

表1 任务一的数据集:论点检测

EMNLP 2017|通用汽车公司:推特论证挖掘-论点、事实和来源

表2 任务二的数据集:事实论据 vs 个人意见分类

EMNLP 2017|通用汽车公司:推特论证挖掘-论点、事实和来源

表3 任务三的数据集:源识别

计算了这三个标注任务的IAA(标注一致性)(Carletta,1996),在第一个任务中得到了κ=0.767(在100条tweet上计算),第二项任务(在80条推文)上的κ=0.727,而在第三个任务(在整个数据集上)上的Dice=0.84 (Dice, 1945)。具体而言,为了计算IAA,我们对使用相同策略的数据进行了采样:对于任务一,我们随机地选择了希腊退欧数据集(我们的训练集)的10%的tweet;对于任务二,我们再次随机选择了在前面的标注步骤中标注为包含观点的tweet的10%;对于任务三,考虑到数据集的大小,两个标注器都对整个语料库进行了标注。

分类算法:我们基于Scikit学习工具套件测试了逻辑回归(LR)和随机森林(RF)分类算法。对于学习方法,我们使用了一个网格搜索(exhaustive),通过一组预定义的超参数来找到性能最好的参数(我们的目标不是优化分类性能,而是对在Twitter数据上的论证挖掘中的新任务进行初步调查)。我们从tweet的数据集中提取出了观点级特征 (根据(Wangand Cardie, 2014)),我们将其分组到以下类别:

词典(L):unigram,bigram,WordNet动词同义词集合;

推特特有的(T):标点符号,表情;

句法/语义(S):我们有两个版本的依赖关系作为特征,一种是原始形态,另一种是用词的词性POS标签。我们也使用推文的句法树作为特征。我们使用Standford parser (Manning et al., 2014)来获得解析树和依存关系;

情感(SE):我们用BIM的情感词分析API即AlchemyAPI从推文中提取情感。它会返回一个标签(正面、负面或中立)和-1(完全负面)到1(完全正面)之间的分值。

作为基线,我们认为LR和RF算法都有一组基本特征(如:词汇)。

2.2 任务一:论点检测

该任务包括将一条推文分类为是否为一个包含论点的推文。倘若所有的文本片段都是标准论点结构的一部分,我们就认定他是一个包含论点的推文。也就是说,以主张形式的观点,事实反映了满足Toulmin Argument模型的数据(Toulmin,2003),或有说服力的声明,遵循了在推特上提供的推文的定义(Bosc et al., 2016a,b)。我们的数据集包含746条包含论点的推文和241条不包含论点的推文(我们用作训练集)的希腊退欧推文数据,以及713条包含论点的推文和187条不包含论点的推文的英国退欧数据(测试集)。下面我们展示一个包含论点的推文tweet(a)和一个不包含论点的推文(b)的例子。

(a) Junker问“他认为我是谁”。我怀疑当选总理的Tsipras认为Junker是一个未经选举的欧盟官员。#justsaying#democracy #grexit

(b)#美国v日本#独立纪念日 #JustinBieberBestIdol Macri #ConEsteFrioYohappy 4th of july #grefenderum无线节日

我们将论点检测任务作为一个二进制分类任务,并应用于第2.1节中描述的监督算法。表4使用不同的配置报告获得的结果,而表5报告了最佳配置所获得的结果。每个类别都有LR+所有的特性。

EMNLP 2017|通用汽车公司:推特论证挖掘-论点、事实和来源

表4 在论点检测任务中测试集上获得的结果

EMNLP 2017|通用汽车公司:推特论证挖掘-论点、事实和来源

表5 论点检测任务中在最佳配置模式上测试集获得的结果

大多数被错误分类的推文都是讽刺的,例如

如果希腊在每次提到希腊退欧和希腊公投时都有欧元,那么他们可能就会有足够的资金来救市。#GreekCrisis

那些被错误地归类为论点的句子一般包含有转述引语, 例如

Jeremy Warner:无意中,希腊人帮了他们一个忙。很快,他们将推出欧元区。http://t.co/YmqXi36lGj#Grexit

这被错误地归类为不包含观点的推文。我们的结果与前人的实验结果相当(Bosc et al., 2016b)(他们在DART数据集的所有主题的tweet上训练了一个受监督的分类器,但是iWatch被用作测试集)。我们的实验设置获得的更好的性能,这很可能是因为更好的特征选择,且我们实验中训练集与测试集的主题更一致。

2.3 任务二:事实论据vs个人意见分类

这个任务包括将包含论点的推文分类为包含事实信息或者是基于个人意见的(Park et al., 2015)。我们的兴趣集中在讲述事实信息的推文上,因为我们感兴趣的是自动识别他们的来源。这样就可以根据消息来源的可靠性或专业程度来对带有事实信息的推特论点进行排序,为后续的事实检测任务作准备。鉴于文献中已有大量的关于意见抽取的工作,这里我们没有进一步分析基于个人意见的推文,引用感兴趣的读者可参考(Liu, 2012)。

如果一个论点包含一个可以被证明为真的信息(参见下面的例子(a),或者它包含“转述引语” (参见下面的例子(b)),那就它将被标注为事实。其他所有的推特都被认为是“包含个人意见的”(参见下面的例子(c))。

(a)72%的被认为是“英国人”的人支持英国脱欧(而在那些被认定为“大不列颠人”中,没有大多数人支持英国脱欧)。https://t.co/MuUXqncUBe

(b)#奥朗德呼吁#英国尽快开启#脱欧谈判。https://t.co/d12TV8JqYD.

(c)特朗普将把我们卖给英格兰。#Brexit#RNCinCLE

我们的数据集包含230条事实性推文和516条关于“希腊退欧”(训练集)的个人意见的推文,以及138条关于“退欧”的事实性推文和575条关于“退欧”的个人意见的推文(测试集)。

为了解决事实论据和个人意见分类的任务,我们应用了第2.1节中描述的监督分类算法。来自希腊退欧的推文数据集被用作训练集,来自英国退欧的数据集作为测试集。表6展示了获得的结果,而表7则展示了最佳配置LR+所有特性时,每个类别所获得的结果。

EMNLP 2017|通用汽车公司:推特论证挖掘-论点、事实和来源

表6 Factualvs Opinion Argument分类任务中在测试集上获得的结果

EMNLP 2017|通用汽车公司:推特论证挖掘-论点、事实和来源

表7 Factual vs Opinion Argument分类任务中每类最佳模型上测试集获得的结果

大多数被错误分类的推文都包含有转述观点/转述引语,被错误的分类为包含个人意见-这是可以预料的,因为情感特征在这些案例中起着重要的作用,例如,

Thomas Piketty指责德国在讲授希腊历史时忘记了历史http://t.co/B0UqPn0i6T#grexit

此外,错误分类的另一个主要原因是在tweet中包含的讽刺/反语,例如

所以对于Tsipras,没有投票意味着留在欧盟,而对于Varoufakis来说,意味着希腊脱欧。

这些被错误地归类为事实信息。

2.4 任务三:源识别

因为事实信息(如上定义)通常由新闻机构和个人报道的,所以我们要解决的第三个任务——这个在社交媒体语境下很有用——就是在推文中(当明确提到时)识别新闻报道的信息来源。例如:

卫报:希腊危机:欧洲领导人争相响应公投,不进行投票。http://t.co/cUNiyLGfg3

信息的来源是卫报。例如这样的标注对于根据其在新闻摘要或事实核查应用程序来源的可靠性或专业知识来排列包含事实信息的推特很有用。

我们的数据集包含79个事实推特,其中源被显式地引用为“希腊退欧”(训练集),以及40个事实性推特,其中源被明确地引用为英国退欧(测试集)。考虑到可用的带标注的数据集的太小,为了解决这个任务,我们实现了一个简单的字符串匹配算法,该算法依赖于一个包含从训练数据中提取的Twitter用户名和标签,以及一个非常常见的新闻机构列表(例如,BBC,CNN,CNBC)。如果没有找到匹配项,该算法将通过(Nooralahzadeh et al., 2016)的系统从tweet中提取出命名实体NEs,并应用如下两种启发式方法:1)如果一个NE是dbo:Organisation或dbo:Person类型,则它被认定为源;2)当“新闻”、“报纸”或“杂志”出现时,它会在与NE链接相关的DBpedia的页面摘要中搜索(如果发现了,该实体被认为是源)。

在上面的示例中,发现了推特中以下NEs:“卫报”(连接到DBpedia的资源http://dbpedia.org/page/The_Guardian)和“希腊危机”(链接到http://dbpedia.org/page/Greek_government-debt_crisis)。应用前面提到的启发式,第一个NE被认为是源。表8展示了所获得的结果。作为基线,我们使用一种方法来将tweet中检测到的所有NEs作为源。

EMNLP 2017|通用汽车公司:推特论证挖掘-论点、事实和来源

表8 源识别任务中测试集上获得的结果

该算法的大部分错误都是因为信息源没有被识别为NEs (特别是当源是Twitter用户时),或者是NEs链接到了错误的DBpedia页面。然而,为了在最合适的方法上得出更有趣的结论,我们需要增加数据集的大小。

EMNLP 2017|通用汽车公司:推特论证挖掘-论点、事实和来源

3 讨论和未来工作

本文研究了推特数据的论证挖掘任务。主要的贡献有两方面:一是,我们提出了一种在Twitter上进行论证挖掘的方法;二是,我们提出并评估了两项论证挖掘新任务即事实识别和源识别。在应用于社交媒体数据时,这些任务都是相关的,同时与事实检测和源识别任务所带来的挑战相一致。

关于Twitter上的论点检测问题已经在相关文献中得到了解决。Bosc等人(2016a,b)首先提出了一个二分类任务。Goudas等人(2015)在从社交媒体中提取的希腊数据中进行了机器学习实验。他们首先检测了带有论点的句子,其次识别了前提和主张。然而,他们都没有区分事实和个人意见,以及识别事实来源。Grosse等将一种基于论点的方法应用到Twitter数据中,以提取出意见(Grosse等人,2015),目的是检测意见树中的冲突元素以避免潜在的不一致信息。他们采用的目标和方法都与我们的不同。

作为一项正在进行中的工作,未来的研究必须考虑几个开放性问题。其中,我们目前正在扩展带有标注的tweet数据集,包括按每个主题标注的tweets,以及涉及到的主题(如公投后的脱欧,特朗普),以获得更多的事实信息和来源。在这样的扩展数据集上,我们计划使用系统的三个模块分别进行实验。

此外,我们计划通过考虑在推文中提供的链接来验证其来源,从而扩展我们的实验。也就是说,如果一条推特声称报道信息源自CNN,但该链接实际上是指向一个广告网站,那么这个消息来源就不是CNN了。

论文下载链接:

http://www.aclweb.org/anthology/D/D17/D17-1245.pdf

相关推荐