MIT做了史上规模最大的假新闻研究，发现：真相总是跑不过谣言

知识分子

2018-03-24

安科网（Chinaz.com）注：本文已获腾讯传媒全媒派授权，如需转载请联系原作者。

“谎言飞奔，真理跛行其后。”

乔纳森·斯威夫特曾经写道。

这虽然是三个世纪前的夸张描述，但前不久《科学》杂志上MIT发表的一项研究显示，这就是对社交媒体的真实写照。

这项大规模的新研究名为《网络中真实与虚假信息的传播（The Spread of True and False Information Online）》，分析了Twitter面世以来所有有争议的新闻报道，即数年来被 300 万用户转发过的12. 6 万条新闻，最终发现：事实根本无法对抗谎言和谣言。无论按哪种评判标准，在Twitter上虚假新闻总是战胜事实，占据主导地位。该研究发现，相比准确报道，假新闻和谣言在社交网络上总能触及更多人群、渗透更深，并且传播更快。

MIT的科研人员Soroush Vosoughi，从 2013 年就一直研究假新闻，这次主持了这项研究。他提到，“从我们的研究中可以清楚看到，虚假信息的传播远超真实信息…这不仅仅是机器人的原因，还可能与人性有关。”

The Spread of True and False Information Online项目的两名研究人员

研究缘起“私心”

波士顿马拉松爆炸案中的信息混乱

过去，研究人员调查网上传播的虚假信息时一直专注于单一事件中的谣言传播，比如 2012 年发现希格斯玻色子前的猜测、 2010 年海地地震后的谣言。而这篇新的论文涉及的范围要大得多，几乎涵盖Twitter整个生存时期，即从 2006 年 9 月到 2016 年 12 月，在Twitter上传播的每条争议性新闻。但是要做到这一点，Vosoughi和他的同事不得不先回答一个更基础的问题：什么是真相？我们如何得知？

这是一个至关重要的问题。

该项新研究的作者之一、MIT的媒体科学家Deb Roy谈道，“（假新闻）已经是一个白热化的政治、现实和文化话题，但我们研究它的缘起，还是五年前波士顿袭击中的一系列个人事件。”

2013 年 4 月 15 日，两枚炸弹在波士顿马拉松跑道附近爆炸，造成 3 人死亡，数百人受伤。顷刻之间，关于爆炸事件的阴谋论疯狂占据了Twitter和其他社交媒体平台。 4 月 19 日，当马萨诸塞州州长要求数百人在警方大规模搜捕时留在家中，网上的信息变得更加混乱。

“我和妻子孩子呆在Belmont的家中两天，Soroush Vosoughi（Roy的学生）也困在Cambridge。”Roy回忆。被困在屋里，Twitter成为他们与外部世界联系的通道，使用这个渠道让他们“听到了很多不真实的事情，也知道有些事情最终被证实为真”。

磨难很快结束了。Vosoughi在那之后成为专门研究社交媒体的博士，但对当时的他而言，研究刚刚切身经历的这一切，看起来似乎非常荒唐。他的导师Roy，也默默地为这个项目祈祷。

随后，Vosoughi制作了一个真相机器，即一种可以将各种推文分类，并且挑出最接近准确事实的算法。

它关注的是一条推文的三个属性：博主的属性（是否经认证）；使用的语言类型（是否复杂）；给定推文如何通过网络传播。

Roy说，“Vosoughi开发的模型，能够以远高于概率的表现，来预测内容的准确性。”而Vosoughi也在 2015 年获得了自己的博士学位。

研究深入

虚假信息传播惊人、机器人角色有待考量

在那之后，Roy和Vosoughi，再加上MIT管理学教授Sinan Aral，开始研究Twitter上的虚假信息如何传播。他们不仅要回答“什么是真相”，也要解答一个更加迫切的问题：计算机如何知道什么是真相？

他们选择向网络上的最终事实裁断者求助，即第三方事实核查网站。通过搜集和分析 6 家不同的事实核查网站（包括Snopes、Politifact和FactCheck.org），他们生成了一份从 2006 年到 2016 年在Twitter上传播量上万的网络谣言名单。然后，通过社交网络Gnip的专有搜索引擎，在Twitter上搜索这些谣言。

最终，他们找到了12. 6 万条一共被转发过 450 万次的推文。有些推文会链接到其他网络上的假新闻，有些则是原生推文，或利用制作图片生产谣言（该团队使用OCR，可以搜索静态推文图片中的文字），还有一些混杂了真实信息或能链接到其他网站上。

Optical Character Recognition，光学字符识别，视频来源于OCR的维基百科

虚假信息传播更具速度与深度

然后他们进行了一系列分析，对比了虚假谣言的流行与真实新闻的流行，得到一个惊人的发现。

在MIT的演讲上，Vosoughi举了一个例子：一条推文有很多办法获得 1 万次转发。

如果一个名人发了推文A，并且拥有几百万粉丝，那么可能会有 1 万人在他们的时间轴上看到推文A，并决定转发它。推文A被广播时，规模大、层次浅。

与此同时，一个仅有少量粉丝的人发了推文B。B被推到 20 个粉丝的时间线上，被某个人看见并转发，然后其中一个的粉丝又看到并转发，一个接一个，直到上万人看到并转发了推文B。

推文A和推文B其实有着同等规模的用户，但是以Vosoughi的说法，推文B更具“深度”。它将转发链接了起来，以一种推文A做不到的方式进行病毒式传播。“它可以达到 1000 次转发，但拥有各异的形态。”他说道。

关键在于，在这两种传播方式中，假新闻的传播始终占据主导地位。它始终能吸引到更多的受众，并且比真实新闻更能深入到社交网络的毛细血管中。作者发现，准确信息往往不能到达 10 层以上的转发，而假新闻可以达到 19 层，速度上也比获得 10 个转发的准确新闻快 10 倍。

即便是由人类而非机器人检测时，这些研究成果也是很可靠的。在主要调查之外，还有一组本科生协助核查了同一时期约1. 3 万条英语推文的随机内容。研究发现，虚假信息的传播速度以“相当类似”于主数据集的方式，超越真实信息的传播。

这在现实生活中看起来是什么样子？以上次总统选举为例， 2015 年 8 月在社交网络散布的一则传言称，特朗普让一个生病的孩子坐他的飞机，获得紧急救治。Snopes（著名事实核查网站）证实故事大体属实，然而据其团队估计，只有 1300 人分享或转发了这个故事。

Snopes核查结果

还有 2016 年 2 月，有传言称特朗普的表兄最近去世，在其讣告中还反对了这位大亨的总统竞选。据报道，讣告中是这么写的，“作为特朗普家族中骄傲的一员，我恳求你们大家不要让那个行走的黏液包成为总统。”但是Snopes没有查证到这位表兄或其讣告的存在，最终认为这个故事是假的。

尽管如此，还是有大约3. 8 万名Twitter用户分享了这个故事。它的转发链接长度是病孩子故事的三倍。就连宣称拳击手Floyd Mayweather戴了一条穆斯林头巾去特朗普集会的虚假报道，吸引的用户数也比病孩子故事多 10 倍。

为什么虚假信息会有这么好的传播效果？MIT团队采用了两种假设。

一是假新闻似乎比真实新闻更“传奇”。该团队发现，虚假信息通常与用户转发前 60 天内时间线上的所有推文都明显不同。

二是假新闻比一般推文能激发更多情绪。研究人员以Twitter用户用来回复12. 6 万条有争议推文的字词创建了一个数据库，然后用先进的情感分析工具NRC-Canada系统对其进行分析。他们发现，虚假推文往往引出带有“惊喜”和“厌恶”相关的词语回复，而准确的推文则更多地引发与“悲伤”和“信任”相关的词语。

机器人的作用有限

这个团队还希望能够再解答一个问题：Twitter机器人是否助力传播假消息？

在 300 万Twitter用户样本上使用两种不同的机器人检测算法之后，他们发现自动机器人确实在传播假新闻，但他们转假新闻的速度和转准确信息的速度一样。“在Twitter上真实新闻和虚假新闻传播的巨大差异，不能用机器人的存在解释。”Aral说道。

但一些政治学家警告说，这不应该被用来消解俄罗斯机器人散播假消息方面的作用。据《纽约时报》报道，佛罗里达州帕克兰校园枪击案发生后，一群与俄罗斯有关的机器人“军队”助长了分裂性言论的传播。

乔治华盛顿大学的政治学家Dave Karpf在邮件中提到，“这可能有两种情况：（1）在整整 10 年的数据集中，机器人不喜欢虚假宣传；（2）在近期的案例子集中，僵尸网络已经被战略性地用于传播虚假宣传信息。”他还说道，“我猜测这篇论文会成为‘机器人真的不碍事’的科学证据。如果我们纵览Twitter存在的整个时期，这篇论文也的确证实了这一点。但是，关于机器人的口水战中，它的假设在于，目前对‘机器人传播假新闻’已经倾斜了战略性的资源，导致机器人的使用面如此之广。这篇论文没法反驳这种假设。”

对此，Vosoughi表示同意： 2016 年选举中僵尸网络的使用是否有变化，他的论文确实不能作出判断。“我们没有研究机器人角色在不同时期的变化，”他在一封邮件中写道，“这是个有趣的问题，我们未来的研究中很可能会关注到。”

mit twitter

安科网

MIT做了史上规模最大的假新闻研究，发现：真相总是跑不过谣言

知识分子

The Spread of True and False Information Online项目的两名研究人员

知识分子

相关推荐

MIT 推出机器翻译新算法，破译已消失的古语言

只看手势动作，就能完美复现音乐，MIT联合沃森实验室团队推出最新AI

MIT警告深度学习正在逼近计算极限，网友：放缓不失为一件好事

MIT新型“大脑芯片”问世，数万人工大脑突触组成，可进行超复杂计算

超强通用编译器优化工具！MIT打造，准确率是传统方法5倍

梯度会泄漏训练数据？MIT新方法从梯度窃取训练数据只需几步

Julia Computing 和 MIT 引入可微编程系统，连接人工智能和科学计算

MIT 推出编程语言，从方程式和手写代码上解放工程师

开源协议的解释 MPLMIT Apache Licene 2.0 LGPL GPL BSD

无需数学就能写AI，MIT提出AI专用编程语言Gen

MIT 黑科技：通过脑电波和手势控制机器人

MIT设计新型光子芯片，效率比电子芯片高1000万倍

MIT发明10美元AI触觉手套：识别物体，又能称重，论文已上Nature

MIT十美元AI“灭霸手套”来了！548个传感器，轻触便可识物

太極：MIT华人学神开源的计算机图形库

如何自学MIT的应用数学课程？这里有个参照给你

数据科学入门：来自斯坦福、MIT、微软、Twitter等名校名企的20门课程

MIT本科学神重启基于能量的生成模型，新框架堪比GAN

算法偏见就怪数据集？MIT纠偏算法自动识别「弱势群体」

MIT正式发布编程语言Julia 1.0：Python、R、C++三合一

知识分子