什么样的备份容灾系统才真正适合云化数据中心?|技术头条
作者 | 陈元强
责编 | 郭芮
以虚拟化、超融合、云平台等为形态的云化数据中心已经成为越来越多的企业机构数据中心升级方案。据权威媒体统计,云每年以25%的速度增加,其中虚拟化渗透率大于80%。云在按需交付、资源池化等方面有先天的优势,但随之也带来更多的数据和业务安全风险。无论是自建的云还是公有云,每年都频繁发生大量的数据安全和业务中断事故。
在备份容灾管理领域,一方面IT基础架构的云化变化速度已经大大超出了现有的数据保护技术的变化速度,而另一方面不少厂商又都声称自家的产品可以备份云。那么到底该如何选择真正适合云化数据中心的备份容灾系统,本文重点从以下几个方面展开讨论。
什么是云化数据中心?
简单讲,就是当业务需要,数据中心可以在数分钟内增加或减少业务所需要的计算、存储、网络等资源。再简单讲,就是随时增加或减少可以安装部署业务应用软件的服务器。
自建云化数据中心的方案有多种思路,如下:
1、虚拟化为中心的经典架构
这种方案是目前最主流的云化数据中心方案,主要采用的方案就是虚拟化操作系统、服务器与企业级集中式存储,该方案成熟度最高。这种方案,随着虚拟机规模增加,底层的集中存储会越来越感觉到不够用。这时候需要增加新的存储或服务器部署,重新迁移或分布虚拟机系统。
2、以OpenStack为代表的开源大集成架构
这套体系接近公有云平台的体系,主要的3个核心服务都采用高度弹性的方案来构成。随着引入的服务越多,运维管理复杂度也大幅度提升。目前开源体系最大的问题在于企业级运维管理的能力较弱,可靠性不能很好保障,可管理性差,易用性方面门槛很高,需要高度依赖商业发行版企业来保障持续的运行。
这类平台通常是从几千到上万个虚拟机规模,是一些大型企业在重点升级的云架构方案。
3、各类公有云的企业部署版本
国内的云计算公司,都相应推出了企业内部部署的版本,与OpenStack的架构类似,核心也包含3大核心服务,以及各类上层应用服务。第2、第3这类通常是一些大型企业,或者技术运维能力很强的机构才会采用。通常需要企业自己配置开发运维团队。
4、采用商业超融合的架构
第2、3涉及到的硬件投入、软件投入以及人力投入都很大,一般的中小企业都难以部署和运维。超融合把云计算里最核心的能力:虚拟化计算、软件定义网络与分布式存储三大核心服务融合在一起,形成3-4个服务器节点一组的模块化方案。
通过分布式文件系统融合服务器集群管理技术,把服务器的存储能力连接起来,形成可以被服务器共享的存储池,服务器内置的虚拟化操作系统。通过Web 管理控制台,可以为企业打造按需交付的云平台。
该方案无需外置其他存储设备,更容易交付和运维,企业自建私有云变得简单很多。通常超融合方案按照3 个服务器节点起进行部署,如果需要扩容,再按3-4个节点一组进行扩容。
云化数据中心与传统的数据中心有何不同?
1、传统数据中心的典型结构
下面我们来看一看传统数据中心的架构示意图:
一般每台服务器上跑1-3个业务不等,各业务通过不同的安装目录和不同网络端口来隔离。所有服务器数据都存入NAS/SAN 等集中式存储。
2、成本与运维效率对比
两种数据中心,由于底层架构不一样,无论在成本、效率、以及运维管理方法等方面区别很大。
这也是为什么越来越多的企业机构加速数据中心云化,只有这样才能更敏捷支持业务发展需求,提高资源利用率。
3、数据备份和业务连续运行保护模型对比
传统数据中心和云化数据中心在保护模型上,区别非常大。了解这些区别后,才有利于我们选择合适的保护方案。
当前的云化数据中心数据备份容灾现状
1、用物理机时代设计的保护模型保护云
国内外一些厂家产品都源于物理机保护的模型,延展到虚拟化领域。其基本的架构设计模型如下:
基本上就是一个简单的集成架构,把备份软件部署到服务器上,然后交付到客户。增加了虚拟机备份支持,本质上,在保护架构设计上没有特别变化。
2、保护容量固定
通常这类架构在底层选用的备份存储容量上,很固定。厂家在做方案时候,通常会考虑预留较大的空间用于备份数据增长的需求。
这会带来两个问题,一是初次投入较高,二是无法适应云数据规模增长的需求。最终空间会用满,这时候必须增加新的设备。增加新的设备,由于设备之间相互独立。势必会带来维护、迁移和更多的数据存储开销。
3、备份策略模型笨重
传统备份方案有全量、增量、差异备份方式。由于一直以来,考虑到底层存储和各种情况导致的数据错误,厂商通常采用几种方式结合的方案来保护物理机模型的备份数据。其中全量模型,会大幅度增加系统的存储开销,在云场景由于数据量大数十倍,显然是不合适的。
4、恢复速度慢
物理机时代设计的数据恢复方案,通常考虑的是数据回写恢复的方式。这种方式在数据规模不大的情况下,可以工作得很好。一旦数据规模很大的时候,这种方式恢复效率非常低。
5、容灾粒度粗
在传统物理机数据中心时代,关键业务要做容灾保护,通常采用的是存储级复制方案。这种方案,在物理机时代工作得很好。通常一些重要业务如数据库等是独享存储资源的。
在云化时代,所有的业务都共享存储,采用这种复制方案,显然是缺少优先级、重要性区分。在异地容灾效率方面,不能很好地解决业务重要性和业务带宽资源分配的关联关系。
具备云化数据中心级保护能力的备份系统的八个特征
特征一、支持虚拟化在线全增量即时合成模式的备份
通过云平台输出的API来备份数据,而不是安装客户端去备份Guest虚拟机内部数据。通过云平台输出的API 来备份数据的兼容性好,数据一致性更能得到保障。
在备份模型选择上,选用全增量模型备份是非常有必要。第一次采用全量备份,第2次以后采用增量备份方式,可以最有效的降低数据读取量,减少网络传输,最大程度提高备份系统的效率。同时系统可以根据增量数据即时合成为全量版本,用于快速恢复。
特征二、支持Scale Out模型的扩展方案
虽然可以采用插满硬盘槽位(ScaleUp)或多台组合的方案,来备份整个云数据中心。但这不是最佳实践。这种方式会大幅度提高运维管理难度。人为的分割和迁移数据、任务。规模越大,这种方案越难用。到了上千节点的规模,涉及数百TB 到PB 级数据,一般的方案需要多台设备(10 台到20 台不等)组合到一起,这种方案几乎难以实际运用。
应云而生的是Scale Out 的横向扩展模型。简单来说,就是一组一组地扩展,而组与组之间可以无缝融合成一个大组。所有组内的服务器节点数据都是共享的。另外,系统也能自动平衡内部的数据和任务分布。数据存储和任务处理性能,同步提升。
Scale Out 模型理论上能达到无上限的数据存储能力和保护能力。
特征三、集群范围的全局数据处理消重压缩能力
不少的备份厂家产品是支持数据消重技术,但由于架构设计的原因,也仅仅是在单套系统内部。单套系统保护的云主机规模有限,重删效果也大大降低。
对于高度重复的云化数据中心来说,备份系统具备集群范围的消重压缩能力,是一个关键指标,一些情况甚至高达90%的重复比例。如果用传统的方案,会投入数倍的成本来存储重复的数据。对于一些数千个云节点的大规模云平台,这将是巨大的投入。
特征四、批量并发即时恢复能力
如果还是按照现有的传统数据恢复方案,对于高度敏捷的云平台,慢如蜗牛的恢复速度,显然是不能容忍的。即时恢复,就是采用先在数分钟内(最短时间)应急恢复业务,然后再在线迁移。
批量即时恢复能力要求备份系统能够识别和支持并发的随机IO 流,并能很好的支持并发频繁的随机IO 读写需求。
特征五、多节点对等任务并行执行能力
云平台天生就是节点数量多,数据量大。
对于备份系统,是否能并行处理任务显得非常重要。否则是无法有效、即时保护好整个云平台。现有的方案还未准备好去支持数以百计的并行备份任务。
云平台的备份系统,不仅要求能够保护更多的任务,同时应该能够具备在集群备份系统内部,任务可以在失败后,跨节点执行,以满足更高的可靠性要求。
特征六、无限制版本管理能力
内置无限制的版本管理能力,可以有效提高云平台数据应用能力。无论1 个月前、2 个月前、3 个月前的数据,都可以得到有效的恢复、复制、克隆等。
区别与云自己的快照,该能力可以基于任何历史点执行任意多次的恢复、克隆、读写等。
特征七、细粒度恢复和数据复制能力
备份系统既能够备份整体云主机(虚拟机)数据,也需要能够执行文件级的数据恢复能力,根据业务情况组合使用。
对于执行异地容灾的场景,任务级粒度复制数据,可以有效降低带宽的使用,优先保护好重要业务。
特征八、备份系统能够输出管理API
备份系统能够输出管理API ,可以更加容易管理生产系统和备份系统。轻松集成在云管理平台,或企业IT 集中管理平台。使得整个备份流程更加容易根据企业需求自动化统一管理。
关于云化数据中心备份容灾选择常见的几个误区
1、支持了虚拟机备份就是云架构的备份系统
支持虚拟机备份是基本条件,而通过云平台输出的备份API 来备份虚拟机系统是云架构的备份系统的必要条件。
云架构备份系统工作是否良好,除了能支持基本的备份外,备份速度是否高,备份效率是否高,是否能快速恢复业务、是否能支持API 对接等,都是需要考虑的。
2、过度依赖品牌,品牌越知名越放心
在传统以物理机为基础构建的数据中心,以品牌来选择是合情合理。很多厂家的方案都是超过十年以上的研发,积累了大量的数据备份容灾实践。
尤其是一些一线大品牌,甚至超过20 年的历史,对数据库、操作系统、小型机以及各种变形的高可用架构的保护,都非常擅长。
但在云化数据中心时代,由于IT 架构的变化很大,大品牌擅长的兼容性、可靠性、性能、备份模型全都优势不再,一切从零开始。大公司、创新品牌都是从同一起点出发。谁起步早?谁更专注?谁就越有优势,谁就能最早适应客户的云场景。
3、备份软件安装在客户机系统里(Guest OS)
在客户机操作系统里面安装客户端的方案,这是保护物理机的方案。如果一台宿主机通过云化系统虚拟出10 个客户机系统,就需要安装10 个客户端。这种方式,运维管理复杂,也额外会占用更多的系统资源。
这种方案,对客户端的设计会提出更高的要求。直接拿备份物理机的软件过来在客户机内部部署,这是最差的方案。
4、备份系统的容量按照物理机应用数据模型估算
根据应用数据的规模和增长,来确定保护容量是传统数据中心保护方案常用的方案。云化时代,需要重新根据系统和应用数据两个维度来估算备份系统的容量,才能达到最好的保护和应用效果。
5、不考虑平滑的扩容方案
在传统数据中心,备份系统配置的容量一般能很好支持3 年以上的运行,所以扩容不是最需要考虑的要素。在方案的选择上,扩容不是最迫切的需求点。
而在云化时代,数据增长与变化的速度会很快。半年到一年的扩容周期是非常正常。因此拿已有的经验去确定方案,后期的成本更高,系统升级、扩容、迁移等管理就很复杂。
后记
在云时代,数据保护和管理的应用场景已经在发生革命性的变化,但很多用户和行业从业者还停留在传统架构中来思考和选择解决方案,这势必将更多的云环境下的数据置于无有效保护的险境之中。
本文从技术层面剖析,抛砖引玉,欢迎大家交流。
作者:陈元强,深圳市木浪云数据有限公司联合创始人 & CEO,木浪云云数据管理创建人,多备份在线备份云服务创始人。超过18年网络与数据安全、分布式系统与海量业务架构设计、云服务创业等经历,曾就职于腾讯盛大、宜搜、永达,并担任大数据、搜索、移动、信息安全等业务线总监岗位。曾发起创立腾讯第1 套具有核心专利技术百亿级实时大数据平台,更早负责永达大型网络安全管理平台研发(保护全国铁路客票核心业务系统和数十万节点安全),防DDOS 系统研发等。
声明:本文为作者投稿,版权归对方所有。