大数据与小应用--不可逆转的新浪潮

笔者微信上关注的一个共用帐号“油价早知道”推送了这样一条信息:“油价早知道友情提示:根据油价舆情跟踪分析,6月22日凌晨油价或上调(概率超过70%),上调幅度约在100元/吨。”第二天,油价早知道继续提示油价上调消息,并且给出上调幅度0.1元/升,6月21日,油价早知道发布的消息就已经是发改委发布的油价提升通知。

油价早知道又一次提前三天预报了油价调整的信息,从上线以来,他们的预测准确率已经超过95%!这是一个典型的大数据应用的例子,这也是笔者看到的,在中国落地比较好的一个大数据应用的例子。

关于大数据,从去年开始,在全世界范围内与云计算、物联网、3D打印等一起,已经成为炙手可热的话题。但到底什么是大数据?大数据究竟有些什么特性?我们应该怎样应用大数据?它将给我们的生活带来什么样的变化?这些问题的探讨一直在进行,很多企业都在思考,如何在企业的IT建设中应用大数据,实现企业运营的创新。

大数据(big data),百度上的定义是:指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

IBM对于大数据特性的4V描述目前普遍为业界所接受:(1)Volume,数据体量巨大。从TB级别,跃升到PB级别;(2)Variety,数据类型繁多。不止包括传统的格式化数据,还包括来自互联网的网络日志、视频、图片、地理位置信息等等。(3)Value,价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。(4)Velocity,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。

如果单纯按这四个特征去理解大数据,也许会把大数据理解成为全量数据或者叫做全息数据。而这样的数据应用,似乎只有在超大型或者大型项目里才能建设起来,而这些与传统的数据仓库又有什么差别?

最早洞见大数据时代发展趋势的数据科学家之一舍恩伯格给出的三条大数据特征或许能够让我们更好地理解大数据。舍恩伯格的大数据特征可以用三个词语来描述:更多、更乱、相关性。

在这里的更多,是针对研究对象本身,要考虑与对象相关的更多维度的信息,而不是传统的企业内部信息,例如运营商在研究客户离网率预测的时候,不仅仅只研究客户的计费数据,也可以将客户的位置信息,甚至是在SNS网上的言论信息等增加进来。所以,大数据不一定能做到全量(而谁能够定义到底全量是什么呢?)而只是逐渐增加的“更多”。

更乱,是采集的数据噪音更多,甚至在研究某一问题时会对预测结果扰动较大的数据维度。这就需要运用互联网的“试错”思维,不断研究可能的在采集和数据处理过程中形成的噪音,反复实践,在大数据中淘出来最有用的“小数据”。上文提到的油价早知道应用中,开发者体会之一就是在对于SNS的文本信息的上下文处理的不断算法调整,剔出的噪音包括其它主题对于油价的干扰等,使得小数据集合更加精准。例如,某个相关大V在讨论出租车价格问题时说到,如果出租车价格上涨,那么油价也一定是上涨了。人脑对于这样的语言能够很快判断出来,主题是在讲出租车价格问题,而机器就很难明白这一点。如果从这样的句子中得到油价上涨的信息,则对于整个油价判断就是一个干扰。

相关性,是找到数据之间的相关性,对研究对象的发展进行更好的预测。Google的工程师能够比美国官方卫生部门更早地预测流行性感冒的例子就是一个很好的说明。Google的数据工程师不是病理专家,他们不可能知道流行性感冒的原因是什么,但是他们能够通过与流行性感冒相关的一些信息表现,预测到流行性感冒的即将到来。

从上述三个特征及举例来看,大数据应用,不只是国家战略,企业战略这样的大应用,它恰恰可以通过无数的与我们生活息息相关的“小应用”来不断推动发展,从高高的神坛中走下来,走入真正的市场应用。

但是,在大数据逐渐走入我们的日常生活的时候,我们也应该清醒地认识到,任何一门技术的发展,都是一个规范(制度)、技术、应用不断互相配合共同发展的过程。最近沸沸扬扬的“棱镜门”事件,就让民众对于大数据有了一个冷静的认识。6月17日,笔者在微博上写下了这样的一句话:“斯诺登事件终于将"数据权"提到公众视野,谁希望生活在1984里老大哥的统治下呢?有人想成为老大哥,但民众已不是上个世纪。大数据的第一个坎或者第一个发展断点逐渐显现。”

相关推荐