如何基于云计算技术进行数据管理
数据的快速增长导致用户对计算机计算能力的需求越来越高。云计算在提高普通计算机快速处理能力上起到了很大的作用。云计算能够对普通用户使用计算机的模式进行改变,从而给用户提供按需分配的存储能力、计算能力以及应用服务能力等,给用户带来更多的方便,也在很大程度上降低了用户对软件和硬件采购的费用。但是,云计算需要各种技术手段作为支持,其中包括虚拟化技术、分布式的储存方式、计算数据的管理以及数据同步运算等等。
1.云计算技术
云计算是一种基于网络的新的计算方式。云计算的核心思想可以追溯到上世纪60年代。利用云计算和计算机的共享软件和硬件资源能够满足对不同计算机和其他设备提供信息的需求。云计算是分布式处理、网络计算和并行处理的发展,被誉为计算机科学概念的商业实现。云计算可以包括以下几个层次的服务:基础设施即服务、平台即服务和软件即服务。
由于云计算基于的都是一些成熟的技术,很快得到了IT业界众多大厂商的大力推广和支持,在近些年来呈现很好的发展趋势,从而也凸显出云计算的许多特征。首先,云计算具有很高的性价比,其利用非常好的容错处理涉及,使得现有的贵重的专用服务器被廉价的个人电脑代替,并且在计算能力上有很大的提高。这样既减少了硬件投入的成本,同时软件维护和数据管理成本也得到有效的降低。其次,云计算具有动态可扩展性,因为云具有可以灵活进行动态扩张或收缩的规模,服务器能够在任何时刻增加或移除服务器集群中。再次,云计算具有虚拟化的特点。云计算对于软件和硬件资源实行虚拟化管理,用户能够不限时间,不限地点的访问云上的服务和数据,甚至是轻易的完成超级计算任务。最后,灵活定制也是云计算的一个重要特征。因为云是一个非常巨大的资源站,为用户能够提供极大的计算能力和存储能力,用户可以根据自身需要选择相应的数据资源和服务资源。
2.云数据管理技术
2.1 Dynamo技术
Dynamo技术能够在不暴露于外网的前提下直接提供底层支持和AWS,因为它不仅具有存储系统的分布式、数据库和高可用行,还具有转悠存储系统的键值结构、Hash表分布式。Dynamo的基本储存架构和理念是DHT,其最大的特点就是能够均匀的存储数据,各存储点之间有相互感应的能力,因此它的自我管理性能特别强,不需要Mater主控点的控制,同时单点故障的危险也比较低。亚马逊平台的基础存储架构就是Dynamo技术,并且应用于亚马逊的很多系统当中。Dynamo技术利用的是DHT的数据储存方式,因此没有热点,这样,各点的数据存储量和访问压力就呈现出负载均衡的优势。
2.2 MapReduce技术
MapReduce技术是谷歌设计的一种编程模式,适合应用在大规模数据集的并行处理当中,一般要求大于1TB云计算MapReduce的编程模式能够有效的利用云计算的资源。MapReduce是一种新型的编程模式,能够将所有针对海量异构数据的操作抽象为mah(映射)和reduce化简厕种操作。Map能够按照是否能够在单个节点上完成运算的标准将任务分解成若干个自任务,再分配给不同的计算机进行处理。然后Reduce再按照软件的程序设定对Map作用的结果集进行合成处理,得到最后的分析处理结论。除此之外,MapReduce向各节点分配map和reduce任务时,会考虑数据的本地性,将相应安排到参与数据的存放节点或附近节点去执行。
2.3 GFS技术
GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。GFS整个系统的节点分为客户端、主服务器和数据块服务器三个角色。客户端是GFS提供给应用程序的访问接口,是一组不遵守POVSIX规范的专用接口,以库文件的形式提供。GFS的管理节点是主服务器,在逻辑上仅存在一个,是GFS文件系统中的大脑,负责整个文件系统的管理。数据块服务器中是以文件的形式存储的数据,其个数可以有许多个,直接决定了GFS的规模。GFS数据以默认64MB的固定数据块为单位进行存储,并且分布在不同的数据块服务上。
2.4 BigTable技术
BigTable技术是谷歌建立在GFS和MahReduce之上的一个大型分布式数据库,其形式实际是一个庞大的表,其规模超过1PB,能够将所有数据作为处理对象,从而形成一个巨大的表格。同时,BigTable还是一种拥有数据扩展功能所设计的管理结构化分布式数据存储系统,从而达到巨大的规模。在BigTable技术进行数据处理工作时,能够在每时每刻将表划分到单独的服务器中,并且充分运用主服务器谁是监测子表的负荷。