猿学~大数据和云计算区别和认知
首先要明白大家为何从前几年开始谈大数据了?这是一个基本问题,包含着对当下数据现实的基本认识。一个不可忽视的事实是,随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。
DT时代,未来已来——数据“大爆炸”
首先要明白大家为何从前几年开始谈大数据了?这是一个基本问题,包含着对当下数据现实的基本认识。一个不可忽视的事实是,随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大约每两年翻一番,这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。
数据“大爆炸”
对于如此巨量数据(而且单纯的增量数据都是一个巨量),与之相关的存储、分析、流转、使用到交易等等环节产生了一系列关联的问题,而在当下的时间节点,我们不得不明确面对,而不仅仅是先找个地方把数据存起来。
国家信息中心专家委员会主任宁家骏表示:大数据是指无法在一定时间内使用传统数据库软件工具对其内容进行抓取、管理和处理的数据集。大数据不仅仅是大,还有它的复杂性和沙里淘金的重要性。
以上是宁家骏从技术分析角度对数据与大数据做的区分,传统软件处理的数量主要是结构化数据,而且数量上相对小。当规模大到需要新的技术方案的时候,那正是我们重新认识它的时候。
在笔者看来,大数据有两大特点,一是数据来源多源,包括各种结构化数据和非结构化数据,如网络日志、视频、图片、地理位置信息等等,同时数量相对巨大,大数据中的‘大’本身就是一个相对的概念;二是数据处于“on line”即在线的状态,能够随时被吸取和关联,并进行分析。
一般来讲,更多智能硬件和这能设备的加入,更多数据实时产生,于是就需要大数据技术来实现对数据信息的价值挖掘。大数据技术包括了数据采集,数据存取,基础架构,数据处理,统计分析,数据挖掘,模型预测,结果呈现等八个方面。
而以上几个方面都离不开云平台和云计算能力,比如说数据采集之后的数据存储,现在很多非核心敏感数据都可以存储在云端;数据挖掘也是需要通过云计算和机器学习才能实现。那什么才是云计算呢?
云计算——低成本部署、随需使用的计算大脑
所谓云计算,非常教科书的说法是“能通过网络访问可扩展的、灵活的、可共享的物理或虚拟资源池,并按需自助获取和管理这些资源的模式。其中资源实例包括服务器、操作系统、网络、软件、应用和存储设备等。 ”
从以上概念可以看出其包括软件、硬件等资源,简单说云计算有三层云平台,第一个是Iaas(Infrastructure as a Service),基础设施即服务,以前这些资源都是企业固有资源,现在可以不再拥有,通过平台服务商提供,减轻部署成本;
第二个是Paas(Platform as a service),平台即服务,开放式的API可以由合作方提供行业和内容的服务;
第三个是SaaS(Software as a service),软件即服务。比如我们经常使用的手机APP等;
云计算有一个很重要的特点和优势就是资源池化,就是把Iaas,Paas,Saas层的资源(CPU、存储、网络等)放入到资源池中(云服务器),由云服务器进行集中管理。云计算里所有的服务都是通过资源池里的资源而提供的。
我们已经进入了新一轮技术驱动的时代
那如何理解大数据与云计算的关系?
在中国计算机学会大数据专家委员会副主任车品觉看来:人工智能、深度学习,这些都是二十年前就有的技术,但是二十年前没有大数据,没有可以关联的数据。所以大数据的故事从有了关联才真正开始。
那如何应用大数据?车品觉表示:首先要了解数据的生命周期。“布点”、“收集”、“存储”,这些是前端,之后需要对数据做“识别”、“关联”、“分析”。还有一个能把整个过程包起来的,就是“实时刷新”。这就是数据的生命周期,它是一个闭环。不管你怎么使用大数据,你首先要了解这个周期。
阿里巴巴集团首席技术官王坚在一次小型论坛上分享到:“云计算是工业时代的电,大数据就是福特生产线,云存储就是钢铁工业。也就是说,没有钢铁,就没有电,就不会有大规模工业化生产。没有云计算,大数据不会出来,如果云计算没有解决云存储的问题,也不会出来。”
如果简单来讲,我们可以通过一个图来进行标识:
中国科学院院士、西安交通大学教授徐宗本在刚刚结束的工业大数据大会·钱塘峰会上介绍,大数据是新一代信息技术的基础性技术,被普遍认为是继互联网之后,能对全球社会、经济、工业产生重大影响的技术。
面对一股面向大数据市场狂热,徐院士讲到两点基本观点:
第一,我不认为大数据对近一两年GDP的贡献有那么大,但肯定的说对于三年、五年之后的GDP贡献巨大。换句话说,只有沉得下心,愿意扎扎实实打好基础的政府和企业,才能从大数据技术上获益。
第二,大数据技术并不是已经成熟的技术,是一个正在从应用中逐渐走向成熟的技术,目前的挑战多于成熟。
所以,要从整体视角来观察大数据和云计算,而不能因为其中一个而偏废其他,总体来讲,大数据技术与云计算都是很有效的工具手段,有待人们去不断挖掘。
我们用丛龙峰博士的话来作结:“历史规律告诉我们,任何一次大型技术革命,早期人们总是高估它的影响,会有一轮一轮的泡沫;中期又会低估它的影响,觉得不过是些概念而已;当你觉得它是概念的时候,它已经开始生根发芽,开始茁壮成长。”