数据的黑暗陷阱是什么?(一) ——由柏拉图“洞穴之喻”想到的

【导语】客观的世界只有一个,而描述这个世界的棱面却有无数个,如果只在一个或某几个棱面采集数据,就如同在降维的世界里,来刻画高维世界,即使收集的数据再多,也是残缺的,更可怕的是,数据越多,分歧也可能越多,因为每一个不同的观点,都能从事实的一个棱面,找到很多相应的数据来支持,然后彼此否定,如果是这样,那么在一定程度上,这比没有数据还要糟糕,这或许就是数据的黑暗陷阱之一。

1.大数据的数理哲学基础

当下的世界,无不在快速地数据化,细节和事实都被广泛地记录下来。通过“数据排放(data emission)”,大数据系统可以记录下用户留下的点点滴滴(如点击记录、浏览时间、评价内容等),还可以记录下传感器发出的0011(各种温度、湿度、速度、压力等传感器数据)。通过这些记录,消逝的世界,得以重新再现,从而进行规律挖掘和预测分析。以至于大数据时代有个动听的口号:记录一切数据,等待有趣的事发生。

于是,就有人说,大数据时代具有颠覆性,就是因为,目前一切事物的属性和规律,只要通过适当的编码(即数字介质),都可以传递到另外一个同构的事物上,得以“无损”全息表达。在这种意义上,有人就认为[1],大数据与世界本身是对等的,或者说是同构的(如图1所示)。大数据正是通过“量化一切”而实现整个世界的数据化,这很可能改变人们认知和理解世界的方式,即带来全新的大数据世界观——研究大数据,认知全世界!

数据的黑暗陷阱是什么?(一) ——由柏拉图“洞穴之喻”想到的

图1 大数据的数理哲学基础——同构关系

毋庸置疑,大数据是一种宝贵的资源,也是一种强有力的工具。但就目前而言,说大数据是世界的同构映射,恐怕更多的仅仅是一种理想主义。大数据告知人们信息,却不解释信息。大数据引导人们去理解,但倘若使用不当,却会带来误解。大数据有其光辉的一面,但必须避免被它的光芒眩晕了双眼,我们也要利用余眸,留意大数据的黑暗陷阱。

2.柏拉图的“洞穴之喻”与刘慈欣的“降维攻击”

古希腊哲学大家柏拉图在《理想国》第七篇中,讲了一个著名的比喻,即“洞穴之喻(Allegory of the Cave)”[2]:

设想有一个很深的洞穴,洞里有一些囚徒,他们生来就被锁链束缚在洞穴之中,他们背向洞口,头不能转动,眼睛只能看着洞壁。

在他们后面砌有一道矮墙,墙和洞口之间燃烧着一堆火,一些人举着各种器物沿着墙往来走动,如同木偶戏的屏风,当人们扛着各种器具走过墙后的小道,火光便把那些器物的影像投射到面前的洞壁上。由于这些影像是洞中囚徒们唯一能见的事物,他们即以为这些影像就是这个世界最真实的事物(如图2所示)。

数据的黑暗陷阱是什么?(一) ——由柏拉图“洞穴之喻”想到的

图2 柏拉图的洞穴之喻 (图片来源:维基百科,绘制:Markus Maurer)

柏拉图利用这个比喻,在启发世人,我们可见的世界,可能仅仅是被火光投射洞穴墙壁上的影像而已(自然,这个影像是失真的),而这些洞穴的居民,却把它当做是真实的世界。而真实的世界是在洞穴之外,是有太阳的地方。

在很多场景下,受到现有测量和认知工具的局限,我们只能感知到某个事实的一个或几个侧面,就如同柏拉图所言的洞穴人,受限于链锁,只能向到前面的洞穴壁,于是,就会误把其所能感知到的投影于洞壁的影像(二维世界),当作真实的世界(三维世界)。

如果将洞壁的影像,进行数据化处理,哪怕技术再先进,收集的数据再多,都难以让洞穴人感知到一个真实的世界,因为他们看到的世界,被“降维处理”了。

无独有偶。刘慈欣先生在其科幻名著《三体》中,也描绘了一个恢弘壮丽的“降维攻击”:“歌者”文明在途经太阳系旁的星际空间时,随手抛下了一张“二向箔”,包括地球在内的整个银河系的三维空间,瞬间就汹涌澎湃地流入二向箔,三维结构被碾压在二维平面之上。

降维为什么能形成攻击,很大程度上,降维就意味着降低了对世界文明的理解力!升维则相反。

一个正面的有趣的案例就是,在机器学习领域,有个非常有效的分类方法——支持向量机 (Support Vector Machine,SVM)。它最喜人的地方莫过于,对于低维空间的线性不可分样本,通过映射算法,可转化为高维特征空间,从而豁然开朗,使得线性不分类问题,变得线性可分。简单来说,SVM之所以好用,是因为它提供了一个“升维”的世界。

这里我们想说,没有足够的维度,看到的世界,就是“伪”世界。没有足够的棱面,看到的事实,就是“伪”事实!

其实这些并不是最可怕的,可怕的是它可能造就一个非良局面,拥有片面数据,然后固执己见,形成彼此否定的黑暗僵局。

3. 数据越多,真相就越近吗?

随着越来越多的事物被数据化,越来越多的决策者唯“数”是从。更有甚者认为,“我们信奉上帝,其他人都必须携数据而来”(In God we trust. All others must bring data,语出世界著名的质量管理专家Edwards Deming)。

相信数据,这是很好的事情。

但如同那句良言,“尽信书不如无书”,略改一个字,尽信“数”不如无“数”,也是成立的。过度的、不合理的利用数据,带来的后果可能比没有数据还要糟糕。

这是因为,客观的世界只有一个,而描述这个世界的棱面却有无数个。在很多时候,我们所能采集的、所能接触的、愿意相信的,可能仅仅就是“事实”的某一个或几个棱面的数据。

如果是这样,就如同在降维的世界里,来刻画高维世界,那么即使收集的数据再多,也是残缺的,更可怕的是,数据越多,分歧也可能越多,因为每一个不同的观点,都能从事实的一个棱面,找到很多相应的数据来支持,然后彼此否定,形成理解上的死循环。

比如说,假设我们有一个事实是:教育似乎在走下坡路。我们得到的数据是,用标准化考试得到的学生成绩。那么问题来了,考试成绩作为一个维度的数据,是否能全面反映学生的能力呢?学生的创造力能在多大程度上被标准化考试反映出来?教育培养的是能力,还是成绩?标准化成绩之所以饱受争议,就是因为这样的数据所反映出来的,并非是教育的全貌。

再比如,如果我说,李鸿章是中国近代史上最杰出的两个半外交家之一(另外一个是周恩来,半个是顾维钧),你可能立马就拍案而起,胡说,中国近代史上的30多个不平等的条约,哪个少了李鸿章,他赤裸裸地就一个卖国贼嘛!

于是,公说公有理,婆说婆有理。每个人都拿着事实的一面,来否定另一面,振振有辞,不亦乐乎!

大数据专家涂子沛先生曾写过一篇文章《为什么数据越多,真相越远》[3],文中指出,“人类就像刻舟求剑的楚人一样,能掌握的永远只是某一个节点某一个范围内的小事实”。

话说阿里巴巴公司,可谓是中国乃至世界范围的大数据翘楚之一,公司不仅拥有大数据本身,也具备大数据思维,同时还拥有一大帮优秀的大数据工程师。即使这样,也会出现问题。

涂子沛先生就列举了一个案例。话说他还没有就职于阿里巴巴工作之前,公司就有业务线上的高管来咨询他,说仅仅就预测顾客可能要买的商品,阿里就有9个不同的业务部门在做,而这些部门,得出的结论往往大相径庭,而且各个部门都认为自己的预测最占理、最准确!

涂先生认为,这个案例其实隐藏着一个巨大的时代风险。这就是,数量庞大的数据,将导致“人人皆有理”。一个人要做出一个与其它人迥异的结论,总可以找到相应的数据来支撑自己。

根据数字人类学家托马斯•克伦普(Thomas Grump)的观点[4],要知道,数据的背后都是人!人并非总能表现理性!

于是,意见纷争、共识稀少,是常见的局面。

这在一定程度上,可能比没有数据还糟糕。这就是我们在使用(大)数据,不曾认真思考的黑暗陷阱之一。

4.消灭黑暗陷阱的途径

针对涂子沛先生提到的那个案例,他的判读是,阿里的那些部门依据的应该是各自收集的、不同环节的数据,一问的确如此。于是他建议,阿里的正确做法应该是,合并部门,归整数据,然后形成一个多维度的数据,让数据接近事实,然后再进行预测。

其实,涂先生的答案,早在中国古老哲学“兼听则明,偏信则暗”中,已有体现。多“听”几个维度的“事实”,便会带来一个更加清晰的事实,否则,单维度“听”信某个方面的“事实”,就会带来愚昧和昏暗。

现在我们已经步入大数据时代,可不要认为我们已处于科技发达的年代,就把古人的忠告给抛之于脑后!

【参考文献】

[1] 李德伟等.大数据改变世界[M].北京:电子工业出版社.2013.10

[2]柏拉图(著). 黄颖(译).理想国[M].中国华侨出版社.2012.06

[3]涂子沛. 为什么数据越多,真相越远. 罗辑思维. 2016.04.

[4] 托马斯•克伦普(著).郑元者(译).数字人类学[M].中央编译出版社.2007.08

作者简介:张玉宏,著有《品味大数据》一书

更多深度技术内容,请关注云栖社区微信公众号:yunqiinsight。