通过多云自动故障转移强化灾难恢复策略

虽然灾难事件的发生是无法完全杜绝的,但是由灾难事件所导致的业务中断却是可以避免的。通过使用正确的工具和采用合适的测试策略,多云中的主动-主动故障转移可确保企业的一切业务正常运行。

对于某些企业(例如金融企业)来说,每一次业务中断事件所带来的经济损失常常是以每小时百万美元计算的,更不用说此类事件对客户、公共关系以及企业形象所带来的负面影响了。一个多云灾难恢复计划可有助于降低此类可避免的损失。公共云供应商们在多个不同区域部署了若干数据中心,因此,如果发生人为的或自然的灾害,另一家供应商的云平台是不太可能受到影响的。

即便是在云面世之前,企业用户也可以通过在远离主机站点意外地方设置备份站点的方法来实现这种灾难恢复(DR)。这种模式被称为主动-主动故障转移,该模式主要包括了两个运行着完全相同平台、应用程序、存储资源以及其他所需组件的副本的站点。

通过多云自动故障转移强化灾难恢复策略

云技术让这个主动-主动故障转移模式的应用成本变得更为低廉,这是因为采用云技术就无需用户自行购买备份站点所需的软硬件配置。但是,多云环境中主动-主动自动化故障转移的设置是略有复杂的。

自动化故障转移与扩展的挑战

第一个挑战就是创建平台副本,或者在两个或两个以上公共基础设施即服务(IaaS)云品牌的平台上创建平台副本。虽然亚马逊网络服务(AWS)和Azure都提供了类似的平台,例如Linux和Windows,但是它们可能并不会提供完全相同的配置。

通常来说,用户必须依靠类似的平台和配置来实现主动-主动故障转移。即便两个副本环境之间并不完全相同,那也是可以的,但是需要对故障转移过程进行完整的测试。

第二个挑战在于实现自动化故障转移的云平台与配置管理系统。这些工具被部署在两个或两个以上的IaaS云平台上,并提供自动调节功能,以及实现从主要IaaS云到辅助备用IaaS云故障转移的自动化。

在这里选择正确的技术是最为至关重要的。目前还没有哪一个单一工具能够同时提供扩展与故障转移功能、配置管理,以及应用程序与数据的复制自动化。用户可能需要予以权衡并使用多个工具。例如,包括CloudSigma在内的云故障转移工具,而一些数据复制工具则会被内置到基于云的数据库应用程序中,例如Oracle。自动扩展功能通常是云平台本身功能的一部分,例如AWS的Auto Scaling。但是,对于多云来说,用户将需要投资搭建一个第三方云管理平台,例如CA科技、思科或惠普企业等公司所提供的云管理平台,以用于实现跨多个平台环境的监控与扩展。

用户需要在组件级别进行测试,以确保应用程序能够在工作负载出现额外负载时实现自动扩展。用户应每个月定期使用预制脚本程序来测试其故障转移策略,以模拟当主平台或备份平台发生故障时故障转移功能的实际运行情况。持续寻找各种方法来改进故障转移程序,以及提升主要IaaS云和辅助IaaS云自动扩展的能力。了解是否有新的工具或流程可有助于降低延迟时间或恢复生产所需的时间。

支持多云中自动化故障转移功能的新技术

新技术的不断涌现总是伴随着新机遇的出现。这些新技术包括了无服务器和容器,这类新技术有可能帮助企业用户在如今更多传统技术的基础上在多云上建立这些自动化功能。