存储分析:大数据时代,智谋未来
据分析,到2020年,全球以电子形式存储的数据量将达到35ZB,是2009 年全球存储量的40倍。而在2010年底,根据IDC的统计,全球数据量已经达到了120万PB,或1.2ZB。如果将这些数据都刻录在DVD上,那么光把这些DVD盘片堆叠起来就可以从地球垒到月球一个来回(单程约24万英里)。
在信息化的建设过程中,众所周知,数据可以分为3种:结构化数据、半结构化数据和非结构化数据。其中,85%的数据属于企业业务过程中产生的文档等非结构化数据。
面对着海量的数据,人们不禁感叹,大数据时代已经到来,悲观者深为管理和维护而忧虑,乐观者则看到了大数据的大价值。何谓“大数据”,目前没有统一的定义。通常认为,它是海量的非结构化数据,其特点是数据量很大,数据的形式多样化。如何存储这些快速增长的、海量的数据?如何对大数据进行分析处理,挖掘出价值? 相关的一系列问题成为了所有企业面临的共同挑战。
一、 大数据时代的挑战与目标
大数据时代的挑战包括:如何实现高效、智能的大数据存储?非结构化数据正在呈海量增长趋势,如何对其进行有效的数据管理和应用?现有数据保护与文档归档机制能否应对日益增长的海量数据?如何攻克移动数据管理的难点问题?如何在复杂的数据环境下实现高效的数据安全? 如此种种问题,逐渐成为了所有CIO的共同挑战。
但是我们发现,对于这些大数据的挑战,其实归纳起来就只有两个目标:
管理好大数据,从大数据的产生、存储、保护、归档到安全维护的各个角度,从根本上而言,这是IT管理维护的范畴,只不过数据量超出常规管理尺度后,对于管理维护的难度出现了跳跃式上升的态势;
使用好大数据,这是企业管理的最终目标,大数据即意味着大价值,数据与数据、数据与人、数据与业务的关联性。这个挑战既有流动性、关联性、智能的应用挑战,也有基于大数据深度挖掘的挑战。
但是,这两个目标之间也不是分离的,而是一个相辅相成的关系,管理和维护的目的是使用,使用的基础是好的管理维护。
二、 云计算与大数据,时代的交集
为了解决大数据的挑战,人们自然而然的想起了云计算,云计算遭遇大数据,这是时代的发展必然趋势。云计算技术可以实现IT资源的自动化管理和配置,降低IT管理的复杂性,提高资源利用效率。对企业来说,云计算的主要形态是私有云,其主要的业务由私有云支撑,而非关键的业务或者突发性的业务可以采用公共云资源。私有云与公共云需要无缝连接,从而形成混合云的环境。
大数据意味着大资源,这是云计算与大数据的交集,其实也就是意味着,云计算与大数据的关系是两个方向,云计算可以承载大数据,大数据也是可以通过云计算架构和模型来提供解决方案。这样我们就可以清晰的知道,大数据在管理和应用的方向上,可以通过云计算的资源共享、高可扩展性、服务特性来搭建和运营。
三、 大数据的大内涵
如果说大数据与云计算的交集是外部交集,那么大数据内部的关联、挖掘,则是大数据的大内涵,这个调整远远超过云计算的应用难度,数据与数据的复杂关系,比如跨应用系统的结构化数据与非结构化数据的关联;海量数据的存储以及数据在人之间的分享;数据(结构化与非结构化)与业务和决策间的关联。
要解决这个问题的一个思路是EMC提出的信息生命周期思想,但是在很多业界同行看来,这个思想在云计算和大数据时代需要真正的升华,而这个方向就是智能,不是单一和局部的,而是统一的智能。IBM提出了智慧的地球,作为国内崛起的新兴代表爱数则提出了智能数据管理解决方案,也是基于统一智能和信息生命周期思想的框架。
无疑,这是一种新的思路,据爱数相关负责人透露,这种统一的框架采用云计算体系结构,主要技术突破在资源池化和法规管理遵从,从数据生成阶段就将大数据纳入到生命周期管理中,通过统一的智能策略,既提供了很好的运维和保护,也能在使用和挖掘阶段与业务应用结合起来,提供统一的数据信息平台。