从《当我们变成一堆数字》谈到《大数据时代》
最近IT界把“大数据”从一个普通名词变成了专有名词。但是一般人却分不清“把我们变成一堆数字”和“大数据”之间的关系与差异。所以这篇文章借用这两本书来介绍这两个概念。
先谈《当我们变成一堆数字》,大家是否注意到?每当我们在谷歌或百度上搜索一个词汇或一个事件后,你再次上网浏览别的网站时,在边栏或者屏幕上方的横条上出现的广告都和我们刚刚搜索的内容相关。比如你搜了一个数码相机的信息,马上你就在接下来的浏览中发现在屏幕的上方或右方出现的广告都和数码相机有关。
除了上网搜索,我们在使用Web邮箱时,也会发生同样的事。当你发了一个邮件给朋友讨论下一个长假到哪个旅游胜地去度假,你会发现下次你再打开邮箱时,旁边的广告都和当地度假酒店或往返度假地的机票有关。这些都与一个网络专有名词“Cookie”有关。
Cookies是什么意思?字面上Cookies是“小甜饼”,但在网络世界,Cookies就是服务器暂存放在你的电脑里的资料(.txt格式的文本文件),好让服务器用来辨认你的计算机。当你在浏览网站或发送Web邮件的时候,Web服务器会先送一个小资料放在你的计算机上,Cookies 会帮你在网站上所打的文字或是一些选择都记录下来。当下次你再访问同一个网站,Web服务器会先看看有没有它上次留下的Cookies资料,有的话,就会依据Cookie里的内容来判断使用者,送出特定的网页内容给你。
透过Cookies,我们每个人都被数字化了,我们的个人资料,个人喜好,日常活动范围,购买偏好,通通以一串数字的形式展现在网络世界。
也就因为这个Cookies,每当我们在卓越网或当当网购买一本书后(甚至只是在他们网站上浏览了几本书),下次再去他们的网站,网站就会推荐和你上次购买有相关主题的书籍。好像知道你的喜好一样。
大家若带着笔记本电脑去国外旅游,当你进了度假村,安顿下来后,打开电脑透过WiFi检查Web邮箱时(譬如Gmail),往往就会收到一封从Web邮箱服务器发来警告,告诉你的电脑在一个以前没有出现过的地方登录了,假如的确是你自己登录的,那么请操作下列指定的步骤以激活你的邮箱。这又是一个借由Cookies工作的例子。
《当我们变成一堆数字》这本书就是举了很多这类案例,详细阐述了网络怪杰,网络企业家如何利用从网络上搜集来的数字化信息,他们还花了很多的精力研究各组数据之间的相关性与因果性。于是创造新的商机,提高社会的效率,或改善我们生活的点点滴滴。
那么“大数据”又是怎么回事呢?
随着智能手机,平板电脑,还有笔记本电脑的普及,加速了我们“身份的数字化”,在Web服务器面对这样海量的数据信息时,却遇上了新难题:处理能力和储存容量的需求都爆炸性增加。大家还记得吗?15年前我们PC的硬盘都是200M或500M的容量,但是5年前,PC硬盘都是250G或500G。一个G是1000个M。而现在市场上卖的移动硬盘常常都是几个T,一个T是多大?是1000个G。但现在Web服务器面对网络上的大量数据却需要的储存量是以P(Peta)为基本单位的。大家应该可以猜到:一个P是1000个T。
以目前的技术水平,很少有单个计算机可以处理这么大的数据量,也很少有单个储存设备可以有这么大容量。幸亏“云”的概念和技术正好在最近很成熟了,于是利用“云计算”和“云储存”的海量计算能力和海量储存能力,网络怪杰和网络企业家顺利的迈入“大数据时代”!
大数据的开发与应用有着三个特点:
1、数据样本,不再是抽样,而就是数据的总体。分析数据是把所有搜集到的数据包括在内。
2、数据不必百分之百地准确,不必剔除特例,而是从“海量”的数据中总结出绝大部分人的共同特性。用“绝大多数的特性”代表“总体的特性”。
3、不再注重数据之间的“因果性”,而只注重于它们之间的“相关性”。
在《大数据时代》中举了很多实例讲解以上的观点。
1、语言的翻译:
传统翻译软件是设定了很多的语法规则,用这些僵化的规则拆解每个句子,然后再逐字翻译生成不同语文的语句。但这往往使翻译出来的语句非常生硬拗口,甚至错误率极高。业界还盛传一个有关微软公司“机器翻译部门”的一个笑话:部门每有一个语言专家辞职,翻译质量就会提高一些。
谷歌的翻译软件却不是这么做,他们翻译团队的成员大多不但不是语文学家,甚至连翻译成的那种语言都一窍不通。他们都是一些统计学家,从大量的已存的翻译文章中对比,寻求规律,然后产生翻译的文字。事实证明虽然网上搜集来的翻译文章有不少是错误的,是低质量的,但由于数据量极大,这些错误自然就被忽略了,这种方法的确大大提高了翻译的质量和准确性。也就是说“不百分之百”精确的大数据用简单算法比精确的小数据用复杂算法要有效地多!
2、流感的预测
以前卫生单位发布流感成灾的信息,往往都是从各大医院和卫生所搜集来的数据,这个方法的最大缺点是“信息是滞后的”!是“灾”已成事实了,卫生单位才警告社会,这时已经有很多人被感染。
又是谷歌提出了不同的预测办法。他们是以有多少人搜索“咳嗽怎么办?”或“发烧怎么办?”来警示流感可能发生了!除了注意到搜索这些词语的频率大幅增高外,还可以锁定是哪个区域的人开始大量搜索这类问题的答案。于是谷歌就能提早告诉大众有流感开始盛行,而且传染区是向哪个方向迁移。这个项目使得卫生单位及早研制预防疫苗,及早控制疫情的扩散,大幅降低了流感的传播。
3、飞机票价高低和多早预购的关系
也许大家会直觉地认为越早买机票就越可以买到较便宜的机票。一家叫Farecast公司的创始人从他的亲身经验启发了一个新的服务。他发现坐他旁边的人比他晚好几天购买机票却比他的购买价格还低。于是他搜集了所有航空公司的票价与提前订购时间的数据关系,并建立了数学模型。现在我们任何人可以上到他的网站:farecast.com,输入你的出发地和目的地,加上你要出发的时间,马上这个网页能告诉你是现在就赶快买票还是再等几天才买。
由于“大数据”产业的兴起,对于数据库管理有了六个创新的方向:
1、数据的再利用
过去我们搜集到一组市场占有率的排行数据后,一但报告发表了,这组数据就丢弃不用了;一个订单处理完了,这组数据也就丢弃不用了;我们搜索到一个词或答案后,这个数据的处理也就终止了。其实这些数据暗藏了用户的喜好,以及现在流行的趋势。懂得利用这些数据宝库的企业就会脱颖而出,掌握无限商机。
最近移动运营商和微信展开“商业角力”,在技术层面也和数据的再利用有间接关系。
普通一个城市通常需要上百个基站来分布完成无线覆盖。至于大城市就可能需要近千个基站服务区来覆盖。那么一个手机是如何“被叫”的?总不能一个朋友给你打电话,移动运营商就在全国每个城市的每个服务区寻找你吧?还有若你出国度假了,那系统是怎么找到你的?答案很简单,每当你开车从一个服务区进入一个新的服务区,或是你下飞机一打开手机电源,手机就会透过信令信道发送一个“我在这里”的信号给基站。所以有电话要找你的时候,系统会优先在这个服务区呼叫你。
微信给运营商产生的困扰是它让手机也透过信令信道频繁的发出“我在这里”的信息,它占了“有限、宝贵”信令信道60%的资源,却给运营商的流量收入贡献不到10%。所以现在运营商要求微信向他们付资源占用费。
我们先不管“微信事件”,大家想想上面的技术解释有什么商机?那就是运营商完全掌握用户“在哪里”的数据呀!我们怎么利用呢?
大家现在在手机上查看地图时,往往也会显示出各个道路的交通畅通与否的情况?谷歌地图是如何做到的?就是利用手机“我在这里”的数据转换成密集度来决定车流量的!
同样的,由于我们知道用户在哪里,我们就能针对不同的用户推送不同的促销广告。这些都是“大数据时代”对数据的再利用。
2、重组数据
在“数据坟墓”中我们还可以挖出历史数据研究它们的相关性。书中提到丹麦研究了“使用手机”和“得脑癌”是没有相关性的。但是往往这类正式又严谨的“正面”报告得不到媒体的注意。反而任何一个江湖术士做了一个不严谨实验而宣告使用手机会导致脑癌,马上就会有媒体报道,然后很多“家庭自修成才”的科学家就在邮件或微博上疯传。
同样的美国也有类似的报告。在1988年几乎没有手机,在2008年3亿人口里面有2.5亿手机。根据“美国癌症协会”的正式统计,各个族裔在1988年时每100万人里不超过8人得脑癌。那么2008年呢?每百万人还是不超过8人,甚至好像还有一点儿下降。这又表明了使用手机和是否致癌是两个不相关事件。但是每隔一阵既有江湖术士声明他又证明了使用和手机会致癌。
这类大数据的重组开发,一定能帮助我们正确的面对很多无稽之谈。
3、可扩展的数据库利用
大家都听说过谷歌地图的街景,它让我们不只看到传统地图,还可以看到具体的街景和附件建筑物的长相。(在港台街道上你能经常看到有谷歌标识的小车,车顶架着摄像机沿街一路拍摄。)但是谷歌获取了这些“数据”后绝对不止于展示给网民街景,这些数据还为谷歌下一步的无人驾驶汽车的推出打好了坚实的基础。
4、数据的折旧值
数据并不是保留越久越好,比如我们看书的兴趣会变,所以亚马逊不能依据我们十年前的购买记录来推荐我们可能感兴趣。但是他们也不能简单靠着数据年龄来取舍数据,所以决定什么数据需要“折旧”也变成了一个商机。
5、数据废气
我们在搜索时,不小心输入了一个错误的关键词,也许搜索网站简单回复你:找不到相关资料。但是谷歌却建立了自动反馈机制,它会在网页上端出现:你是不是要搜索XXXX?经过这个反馈,谷歌不但提供了用户方便,而且还可持续不断改进它“校正拼写”软件的准确率。
同样的,聪明的网站会搜集用户浏览时,鼠标停留在哪的时间较长?最频繁点击哪个图标?假若对搜索的结果,用户通常都不会点击第8个建议结果,是否网站下次碰到类似的搜索就应把第8条从建议答案中剔除?这些都是在完善大数据管理和应用时呈现给软件开发者和网络企业家的新挑战和新商机。
以往设计网游的大师坐在多个屏幕之间设计游戏,用自己的艺术直觉决定如何改进并推出升级产品。有些时候也会加入一些有限用户群的反馈。但是在新一代的游戏中,软件设计师会植入很多监测点,搜集到:用户什么时候会容易放弃而且不再玩这款游戏了?在哪一关卡会给用户挫折感而总是升不了级?有了这些“废气”反馈机制,就能大大提高游戏受欢迎度。
6、开放数据
FlyOnTime.us这个网站搜集了很多美国航空史上的“正点率”数据和当时的气象数据。它发现飞机因为大雾而误点的时间是风雪而延误时间的两倍。同时它用这两组数据帮助乘客预测今天航班延误的可能性。上述两组数据都不是该公司自有的,而是两个官方机构所保存的。将来我们一定还会想到很多类似官方数据库的有效利用,但这很大程度上取决于政府愿意开放多少数据给大众。
综合上面所说的各种应用和未来的创新,可以看出大数据产业包括了三类型的机构:
1、数据搜集者也是拥有者
2、技术分析者
3、数据使用者
在目前发展阶段是使用者获利最多。比如一个普通合格的妇产科医生,她不必是一位名医,也不必是一个产前保健专家。只要她能随手取得“大数据”,照样可以为孕妇提供最佳的生产和医疗方案。
书中还用电影《点球成金》(Money Ball)解释了利用“大数据”的实例。这是美国职业棒球界的一个真事故事。由于大陆朋友不太热衷棒球运动,所以这部电影没在大陆卖座,但是在台湾却是大家非常喜欢的一部电影。
电影描述奥克兰运动家队由于对球员薪资的总预算很低,所以雇不起大牌明星球员,未来的赛季前途渺茫。球队经理暗下决心改造球队。他不靠球队智囊团的直觉和球员的身价来挑选优秀的球员,而是在球员过去上场表现的大量数据中挖掘“高上垒率”的潜在明星,并通过软磨硬泡将他们招致麾下。这个新阵容的球队在各方压力和冷嘲热讽下渐渐打出较好的成绩。终于在那个赛季从敬陪末座打到MLB的西部冠军。从此以后很多球队也都开始用这种“大数据”的方法决定招揽哪位球员加盟,很多队伍也因此获得总决赛的冠军。