VMware愿为大数据建造云计算高速公路
面对快速攀升的高达PB级海量业务数据,人们自然想到了很多疑问,大数据如何能帮助我的业务,云和大数据到底有什么关系,云能落地吗?Hadoop是不是大数据的万能药?虚拟化在大数据中将扮演什么角色?带着这些问题,我们来走近大数据。
根据IDC的一份名为“数字宇宙”的报告,预计到2020年全球数据使用量将会达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
大数据的来源
海量数据到大数据的发展过程是一个从量变到质变的过程。数据发展已有多年,每年都以翻倍的速度在增长。过去增长以往的技术能够对它比较好的管理,但一旦到达一个临界点以后就产生了一个质变,过去的技术已经符合不了当前的发展趋势,需要新的技术来满足新的数量级的需求。于是大数据的概念应运而生。
大数据有以下几个涵义: 第一、规模大。市场上企业的业务迅速增长,客户量不断增加,数据量的产生越来越多, 根据IDC调查显示,未来十年全球的数据量会增长4倍;第二、来源广。现在大数据的概念,数据不单单是从企业内部应用引发出来的数据,也包括了外部。作为一个企业,可以包括供应商、客户等数据来源。第三、数据类型多,数据包含交易型的结构性数据、半结构性数据和非结构性数据。
当前市场竞争激烈,客户的需求变化多端,市场形势瞬息万变,使得这些数据必须随着业务不断变化。所以在大数据时代,作为企业,人们开始思考如何能够有效掌握并管理大数据。如何能够从众多数据里面抽取出对公司业务发展有用的信息,帮助增强运营效率,如何让大数据产生大价值。
VMware大数据落地版
大数据有太多的声音和讨论。可是如何落地,如何具体帮助业务呢。现举一个实际例子,在中信银行信用卡部,在2011年全年大概有1500多个宣传活动。以前推广一个宣传活动需要两周时间,用了大数据解决方案只需要2-3天;承诺客户在刷满一定额度后赠送礼物,以前这种动作需要几天时间处理,现在只要达到规定金额,就可以将赠品实时送到客户手里。
在中信银行的风险评估中心,利用大数据去实时评估每一个客户每日的刷卡行为和信用度。以前要调整一个客户的信用额度可能需要在每个月,甚至每一季才能做到,现在每天都能去调整。中信银行采用了大数据解决方案后,进行了4000万次的客户信用额度调整。这在没采用大数据解决方案前是绝对做不到的。这个案例的背后就是VMware的大数据解决方案。
现实版的另一个大数据的使用者是Google。Google每天产生海量数据,它本身有一套很完整的分析体系和解决方案来处理这些数据,可以做进一步处理和使用。对于很多其他机构,比如政府和企事业单位,他们也想做同样的事情。但是必须使用特定厂商的硬件、软件和解决方案才能实现。 VMware希望在云时代去帮助这些企事业单位,不再被物理环境所限制,可以用更弹性、有效、低成本的方式去实现。未来将会看到银行业可以利用大数据来分析客户信用度和进行风险管理,零售行业可以通过大数据来分析他们的信息量,让供应链和资金链运作更通畅。
大数据是高速跑车 云计算是高速公路
如果说大数据是高速跑车,那么云计算就是高速公路。 有人说云计算和大数据是双胞胎,两个是不同的个体,互相依赖又相辅相成。首先在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务。然而大数据必须有云作为基础架构,才能得以顺畅运营。没有云计算这样的高速公路,大数据这样的超级跑车就跑不起来。当市场对大数据这个超级跑车需求很高时,云计算这个高速公路就会往纵横各个方向发展,形成良性互动。
其次,大数据和云计算的目标受众不同,云计算是卖给CIO的技术和产品,是一个进阶的IT解决方案。而大数据是卖给CEO、卖给业务层的产品,大数据的决策者是业务层。由于他们能直接感受到来自市场竞争的压力,必须在业务上以更有竞争力的方式战胜对手。比如电信运营商可以用大数据分析手机用户流失的原因是什么。某家领先的手机运营商,他们采用大数据解决方案一个星期,就发现了原因,并使公司获得了1亿美元的高回报。
VMware是业界领先的云基础架构厂商,在IaaS、PaaS和SaaS领域都有很强的技术、产品和解决方案。在管理Hadoop平台时,VMware有相对应的产品,如vFabric Data Director和Serengeti。这两项技术都能对Hadoop平台进行有效管理,起到快速部署、一键式管理等功能。
VMware最近收购了一家公司Nicira,即进行线上服务分析的云服务公司。它可以使大量的数据,无论是预置数据,还是其他应用数据,都能轻松上传到它的服务中去,进行快速分析,并以图表进行展示结果。无论是大公司还是小公司,抑或某个部门,都很容易应用大数据技术。VMware致力于为高速跑车建造高速公路,让大数据和云进行有效结合。
虚拟化提高Hadoop的安全性、灵活性和易管理性
Hadoop是Apache基金会发起和研发的,是目前业界公认的开放平台之一。授权公司可以发布自己相应的Hadoop版本。以Hadoop为代表的分布式系统,是大数据系统必要但不充分的组成部分。必要性是因为现在的大数据中很多数据是机器产生的数据,或者是物联网各种各样的探测器、电脑产生的日志,这些是人为产生的,而且数量巨大,不适合把它直接放到数据库中去。而Hadoop就提供了全新的方式,可以轻松进行平面扩展,把这些数据放在库里进行任意的数据分析。Hadoop成功的建立了这个环境,使得围绕Hadoop的软件能够提供各种各样的功能,完成智能分析工作。
说它是不充分的理由是因为我们需要对数据进行分析,客户可以把数据放池子里,Hadoop则把这些数据分成几百个、几千个节点,这是在特定的某些应用场景必须进行的部分。但是更多的应用场景是需要实时的反应,互动的反应,这时候就需要其他技术,包括内存类检索技术,甚至在数据产生时要进行实时反应的技术。这些技术都结合在一起,才是一个完整的大数据处理系统。所以VMware及其合作伙伴一直在实时反应、互动和内容检索等方面不断努力。
VMware的战略方向是和业界领先的不同版本都进行合作,以开放的态度建立一个生态圈,支持所有版本的Hadoop都能在VMware的虚拟化平台上运行。在这个指导方向下,VMware做了如下几方面的工作。一方面是和社区紧密合作,VMware开发者和和社区的开发者一起,输入Apache源代码库。Hadoop在它产生的时候,并没有考虑到虚拟环境,它是一个物理环境的技术,比如机器和机架的物理概念,但没有虚拟机的概念,VMware加进去的代码就加进了虚拟机的概念,虚拟机的概念和其他概念有一些不一样,需要特殊处理,在源代码里就知道它在虚拟环境中运行,进行优化。通过VMware的努力,使得现在的Hadoop开源技术,能够在虚拟化环境里运行。能够让它十分钟甚至更短的时间之内,从无到有,产生新集群。VMware的目标就是为超级跑车创造一条宽敞大道,使得大数据跑车能够快速跑起来。
另外, VMware虚拟化对Hadoop的作用,就是使它更接地气,并从现实角度适用于云计算环境,使它更易于管理并且安全。
第一、让Hadoop适用于多租户环境,很多时候公司里需要Hadoop或者大数据系统,往往不只是一个部门,不同部门在私有云里有可能都需要自己的Hadoop集群。在公有云上就有更多类似的需求,虚拟化就提供了一个很好的架构,可以使得多个集群之间非常灵活的同时运行,不互相影响。
第二、提高Hadoop的安全性。现在业界的基本方案都是在一个Hadoop平台上运行,信息保护非常不安全,相互能看到各自的数据。VMware的虚拟化在不同集群之间产生强隔离。
第三、提高Hadoop的可伸缩性。因为Hadoop集群,物理环境一旦产生了,要加节点,尤其是减节点是很不容易的。Hadoop需要观察每个部门,或随着时间推移上下的波动的需求。在虚拟化情况里,就会使得它很容易进行这样伸缩加减节点。
最后一点是增加CPU的利用率。 根据Hadoop社区的普遍反应,4万个节点集群,平均CPU利用率只有20-30%,虚拟化则大大提高了这种利用率。
软件主导的数据中心 开放才是硬道理
VMware对数据中心架构有深远的影响。近年来整个数据中心从一个硬件主导逐渐往一个软件主导的世界转变。数据中心以往大都以计算为主导的,而现在越来越多的应用是以数据为主导。 VMware提供统一的基础架构,希望既能够满足以计算为主导的应用,也能满足以数据为主导的应用。
开放是VMware的精髓,在数据管理的发展道路上也印证了分久必合、合久必分的趋势。在四十年前数据管理是群雄混战的年代,有很多数据公司有他们一统江山的解决方案;现在的大数据则是颠覆性的、百家齐放的年代,一家独大的技术已经不能满足所有数据需求了。在这样的时候, VMware希望提供好的土壤,通过比较灵活的基础架构,使得客户非常容易,并以非常低的门槛即可尝试各种各样新的技术,不用很大的投入即可尝试Hadoop。
VMware大中华区总裁宋家瑜说:“云时代厂商没法固步自封,是完全市场为导向的时代。市场告诉我们,客户有各式各样的过去、现在和未来的选择。我们坚持去了解客户的需求,采用开放态度与厂商来合作。我们常常看到一个成功厂商的成功的过去,但这种成功也常常成了包袱,VMware非常清楚这一点并时刻保持开放的态度和策略,这是也是我们为什么一直保持创新并领跑于市场的秘诀所在。”
大数据 中国心