独家|不容小觑,数据语言势必预测未来(附图文实录)
[导读]从智库大数据、资讯大数据、传统文化大数据、意识形态大数据、中文语义大数据到社会治理大数据等多个方面,基于数据在线,使我们与世界的关系发生了巨大的变化,而媒介这种传播载体,从传统形态转变至新形态,也积极地见证并参与了这场全球互连数据大战。本期数据科学研究院举办的清华大数据“应用·创新”系列讲座,邀请到清华大学新闻学院的沈阳教授。他是一位致力于微博、微信舆情研究分析的新媒体应用领域的专家,与我们分享大数据与新媒体连接进化背后的驱动力和未来技术升级那些事。
沈教授还介绍了清博舆情系统,这套系统可整合传统的门户网站、微信、微博、论坛、海外媒体等舆情信息。数据科学研究院为支持校内跨学科交流合作,也在讲座现场宣布重磅福利:为鼓励校内师生使用该系统辅助科研,数据院将统一购买后免费向师生开放该系统的使用功能。
“大数据的终极目标是连接人,连接世间的万世万物。”
“思想的连接和认知的连接,是可以跨越时空的。”
沈阳教授在讲座一开始,就给我们打了一剂吗啡。他提到:“随着连接进化中量的积累,连接的质已经发生演变,它依赖于平台生态以及相关利益圈。在整个连接进化过程中,会从弱连接走向强连接,乃至于脑的直接的超级连接。”
互联网可以被理解具备四种能力,一是超级连接能力,二是构建新的虚拟社会形态、三是超强的资本驱动力、四是极致的人像刻画能力。技术的逐步发展会把原来人类社会的各种连接关系重新做一次解构和重塑,这是透过数据进行连接的深度思考。
在互联网里面有个理论叫云管端,从数据的角度来看其实也是有类似的对应关系,社会的脑、社会的体、社会的肢。我们可以发现目前的互联网会有两个明显的特征,一个特征是自选择,第二个特征是云托管,就像滴滴一样,滴滴把我们对小轿车的需求给托管到云端了,共享单车也是诸如此类。
数据与社会的连接需要遵循数据连接之道,即前端轻如鸿毛,后端重如泰山,就是后端需要的数据量越大越好。
针对大数据应用,沈教授对由表及里的数据对接做了一个非常形象的比喻,他说:
“我把大数据整个划分成五层。
第一层叫做表一层数据,主要是搜索引擎能抓到的数据。
表二层数据是行业垂直大数据,是在移动手机里面的,比如说你是做电影分析的,你最好的数据可能在猫眼电影里面,猫眼电影里面这种数据百度一般是抓捕到的,所以我们把它叫表二层数据。
里一层数据是每个单位内部的数据。
里二层数据是每个人的数据。
里三层数据是每个人基因的数据,所以我们是按照隐私性和数据的可获得性把它做了一个划分。”
“努力的方向”也是这场报告中,沈教授提到的最多的字眼。比如:当他提到大数据一个优势就在于多层级的数据关联时,他介绍了诸如数据交易,舆情、流量分析、精准营销、地理定位之类的很多行业性的应用平台,也提到了团队要致力于此;另外,在做微博指数、信指数、客户端指数、网页指数等这些单一指数多年后,沈老师又想到要架构一层融合指数,通过这些指数做比较精准的分析,可以使其成为决策用的指南针,但要成为GPS仍需努力。
“公开一切可公开的、要公开的、能公开的数据。”
针对这几天勒索病毒爆发,沈教授也提出了推断:“随着时间推移,我们从“PC互联网”到“移动互联网”再到“智能互联网”,最后我们可以看到的趋势一定是脑连网,就是大家的大脑会跟网络进行连接,到那时候进入黑客的话就很麻烦了,所以在安全和隐私方面的机制还要加强。”
“数据其实是一种语言,是人类认识世界的更加精致的语言,但是语言本身并不能商业化,你只有用这个语言表达一个故事才能商业化,所以要用大数据表达一个很好的故事,要用大数据挖掘万事万物跟规律之间的连接,我们去发现一些规律,这些规律可以用于指导我们的实践。”
沈教授对于未来论文写作也提出了积极的设想,他说:“未来写论文的研究综述是不需要自己动手的,你只需要输入,中文也有英文也有,按照时间序列观点聚类帮你弄好了,那时候你就更多地是去了解和分析了。”
“大数据终极的用法是什么,大数据就是算命,随时随地能够算到未来会发生什么,随时随地能够帮你做一些未来的预测。”
沈教授带领的清博舆情团队,针对抢盐事件、赵薇删帖事件等,运用了分词模块、议题的分化和聚合等技术,通过数据挖掘透析舆论的攻防战,并有望将这些分析过程自动化,甚至要做到舆论预报。“我希望未来在舆论场里面,在数据平台当中有一个跟天气预报员一样的人,每天跟你预报一下舆情。”沈教授非常看重对数据真实性的还原,他认为,大数据真的是需要指导性,需要计算未来的变化,这是沈教授和他带领的团队正在努力的方向。
在报告现场,沈教授用清博舆情模拟了数据搜索的过程,以范雨素为例,很快就出来了303条数据,并且实时分析了感情色彩的正负面、情感走势,包括热词,并且数据量持续攀升,可以看出是一个实时的大数据平台。
“我们可以实现我们前人没有实现过的研究的思路,这是非常有价值的。”沈教授的话也同样激励和鼓舞着我们,在追梦路上的数据科学探索者们!
精彩问答:
问:清博舆情平台能不能用来阅读上市公司的企业年报,就是根据相应的要求,摘除年报里面的一些词频什么的?
沈教授:我们现在的数据,目前它的颗粒度仅仅到篇章级别,你刚才说得年报是一篇文章里面的结构化内容,我们现在还没有做到这一步,下一步我们希望往这个方向努力。未来很重要的一个方向,大数据一定会进入颗粒度越来越细的程度,我个人觉得我们在10月份会进入这样一个时间点,在这个方向上非常具有挑战性,我乐意接受这种挑战,希望去尝试。
问:舆情监测的时间涵盖的大概是什么情况,是从一开始还是只是对近期的搜索?
沈教授:我们现在可能在下个月迭代一次功能,叫无限回溯,但是那个功能消耗资源很大,因为它要在全网当中任意一个地方都会去找,所以那个可能是一个付费可能。你如果有付费的意愿,你需要这样一种功能,至少互联网里存在过的最近的接近20年的只要在网上存在的,我们都把它给扒回来。
但是有点可惜的是,中国的网站信息十几年前的中国人自己基本上没有保存,就是说你现在想看比如清华大学十年前的首页是什么样子,可能你在中国境内找不到了,但是美国有一些研究机构还保存着。所以说互联网的信息具有很强的流失性,就像半衰期一样,有这样的规律,很多页面过一段时间就不见了。所以我们还是要重视,看上去价值密度很低的东西,随着时间的推移它真的会越来越宝贵。
问:您前面讲到,现在大数据大部分都是从抓取到统计,我们下一步是要做预测,我觉得我们预测现在比较多的是内容的精准投放,您觉得除了精准投放以外,大数据的预测还能做到哪些事情呢?
沈教授:我个人觉得可以预测很多事。举个简单的例子,对网红的分析,我们曾经做过一点网红大数据,把这些网红的ID简单做过一些分析,网红的关键点从大数据角度来说就两个,一是这个网红到底能卖什么,他的电商属性是什么,比如罗振宇曾经卖过月饼,有的人说他是亏本的,但是他卖书我估计是赚的。
第二个就是分析他的潜力,到底哪一个网红是能够快速崛起的,这是需要数据分析的。再比如IP大数据,它的分析跟网红大数据完全一样,你拿到任何一个IP,这个IP的商业转换在哪里,社会价值在哪里,这是我们首先通过数据去分析的,二是这个IP的成长性是什么样的,往往一个东西很火了大家去卖,这时候利润空间就很低了, 我们要买的就是它将起未起之时,做风投也是一样的。所以我们刚才强调对人的分析方面是有非常多的点可以做的。
另一方面,从个体的研究到群体的研究,到整个人类的研究,我觉得都非常有意义,从人文社会科学的角度来看都非常有价值。比如说对群体的分析,假设你是做文化研究、民族研究的,你现在能不能告诉我,全球不同文明之间的整体的话语权的涨跌,这种东西需要更加庞大的数据。再举个离生活近一点的例子,有一次我去看一个房子,刚开始看的时候没注意,后来发现旁边放了一个特别大的变电器,如果有大数据能够把这些东西快速地帮你分析出来,告诉我哪些地方噪音是多少,这就非常有价值了。
当然现在不仅仅是人跟环境,而且是对人自身内部的改造,这也是有价值的,我们未来会有两个跟人本身密切相关的设备,除了手机之外还有智能眼镜,还有一个我认为是衣服的智能化,这是非常值得期待的,因为衣服是跟你24小时在一起的,可以拿到非常多的关于你身体的数据,这时候你可以预测自己,比如心跳是否正常,假设心跳有一些不太正常的情况的话,你可以预先吃药。所以我觉得这个预测包括很多方面,非常有意思,我们团队还是聚焦在把全域大数据结构化、行业化,这也是我们短期内的目标。
问:听了您刚才的预测,我感觉以后要失业了。您对大数据以后的担忧有没有,比如刚才说到热点的预测,现在如果大数据都可以做到预测,以后一些行业您是怎么看的?
沈教授:我们去看人类社会的演化历史会发现,往往重复性的劳动很容易被取代,所以我的一个判断,当机器人大规模普及以后,当能源价格大幅度下降以后,就是核聚变,然后又可以做大量的机器人,这时候就会产生很明显的社会变化,如果你不想工作了机器人每天就做一个最简单的汉堡给你吃喽,这是我们可以看到的一个变化。
在这种情况下你会发现,对于人类原来擅长的很多工种,在人工智能加大数据的冲击下面某种程度上也会消失,比如说翻译,未来肯定会出现能够实时翻译的系统,这时候翻译是没必要存在了。但是作为文学创作来说这个难度更大一点,现在写诗的系统已经有了,自动写一首诗或词,我们清华也做过写词的软件。但是整体上来说,不管是对新闻热点的预测也好,包括医疗行业等等,离真正被取代的时间还有一段路程。我观察到一个有趣的现象,有很多行业的人当他面临机器对自己的迭代的时候,他是一种强烈的反抗的心态。首先是反抗,然后是被迫接受,最后是赞扬。
我就碰到过一个老学者,有一天很神秘地跟我说,你知道吗?最近有一个软件很火,我说什么软件?他说微信。这时候他是一种接受的角度了。有一个老师参加医疗类大数据的会,发现有的人就不接受,说医疗人工智能大数据软件给出的诊断报告是不太对的,后来这个老专家又去参加一个翻译类的大数据的会,当场就有很资深的翻译家说,这个软件翻得不好,因为翻译讲究信达雅!
所以你会发现今天电脑的技能或者大数据的技能某种程度上还是赶不上人类,但是我们要记住一点,它的进化比我们更快,就像我自己对我们团队功能的进化还是比较满意的,在上上周我们还没有刚才看上去比较好看的传播路径的分析,这一周就有了。当我有了这个功能之后马上我就觉得这个功能不好玩了,我需要更新的功能。所以说软件本身的迭代速度是快于人类的,从这个角度来说人类的灭亡是有它的必然性的。
问:是否可以用表情来判断他的情感?
沈教授:我觉得大数据的问题还得依靠大数据来解决,如果要判断情感准确的话,我们可能需要更多的语料,更多的分析。比如说现在怎么样去判断一个谣言,其实很难,一扫描,这篇文章是不是谣言看不出来,但是大数据系统能够在抓取这篇文章过程中把下面的社会网络对这篇文章的评价,它马上就知道这篇文章是谣言,这个犯错的概率是很低的。然后它可以经过长期的学习发现,这个人每次说得话,下面的网友都说是谣言,那说明这个人是比较倾向于传播谣言的,它马上可以对这个ID号进行认证—谣言贩子。
我印象最深刻的一篇谣言,就是光绪皇帝在京师大学堂的演讲,这篇文章很多媒体都在发,因为比较符合媒体的心态,后来有网友指出来这篇文章是一个网络小说写手写的一篇穿越小说,说某个年轻人被雷劈了一下就穿越回去当了光绪皇帝,然后就在京师大学堂里面做了这个演讲。因为写得很好所以媒体都喜欢引用。你如果用软件自动分析,分析不出来这是虚构的内容。所以大数据的问题需要大数据加人工智能联合解决。人类社会表现出来的智能性和机器所必须的智能性都是非常有意思的话题,如果我们能够把它结合起来,这真是一种我们说的数据之美和人工之美的结合。
问:数据抓取版权的规避问题怎样处理?
沈教授:像微博的数据,我们的渠道主要来自几方面,一个是我本身跟微博的合作比较多,微博的很多活动我也经常参加,它有一些数据跟我们有一些战略合作来提供给我们,还有一部分我们也买了它的商业接口,还有一部分我们也抓取一点,因为我买了它的接口,所以它看我抓它也就不管我了。
微信的情况,腾讯在3Q大战以后心态有很大的变化,3Q大战以前别人做任何一个东西它可能反应很快很激烈,别人做了一个好的它也开始复制山寨,但是3Q大战以后,腾讯更多的讲究生态性,目前看来,腾讯数据方面,可能的一种态度是你有能力抓就抓一点,你没有能力抓那就算了,但是它会经常升级它的反抓取系统,让很多人都很难受。所以对微信公号的数据抓取是个技术难点,能抓到的团队不多,在中国我估计不超过50家,因为中国很大,有做各行各业的。网页的数据抓取现在是跟成熟的。如果从规避版权的角度来说,更多的是可能需要提供一些抓取服务,而不是抓取的结果,这也是我们需要做一些调整的。