云风险、云中断和云安全:人为错误是主因

有些人认为云计算实际上并非那么可靠,那么企业如何提高云计算安全性,消除单一供应商锁定的云计算风险,并降低云计算中断的可能性?

云风险、云中断和云安全:人为错误是主因

就在几年前,影响云计算应用的两个最大障碍是云计算的安全性和可靠性。随着时间的推移,人们已经了解到云计算可以像内部部署一样安全(甚至更安全)。虽然花费多年时间才建立起良好的记录,但人们现在知道云平台通常更可靠。

但这并不是说采用云计算是万无一失的。仍然有大量的重大停机事件。2019年的趋势是有趣的:停机事件突出了企业依赖单个云平台的风险。

云风险以及寡头垄断市场

云计算市场仍由少数行业巨头主导。AWS公司引领市场发展,在2018年第四季度占据32.3%的市场份额,其中微软Azure占第二位,占16.5%,谷歌云占第三位,占9.5%。其他市场的组合构成了其他市场,其中包括阿里巴巴和IBM等几家大公司。

市场的形态带来了风险分散和风险集中的相互冲突

企业分散业务风险是因为不仅仅依赖于办公室中的单个服务器机房或数据中心。企业IT团队可以位于其他地方,降低了与该位置相关的风险。

其次,大多数企业不只是使用一种云计算服务。即使是那些声称将业务迁移到单一云平台以获得单一平台和批量折扣的企业,也可能会使用其他SaaS服务,如客户关系管理(CRM)和人事工资管理系y(Payroll)。这应该意味着企业的风险会进一步降低,因为所有系统一次性失败的可能性很小。但情况并非总是如此。

一些主要云计算提供商带来的问题是,许多基于SaaS的云计算服务可能托管在同一平台上。从表面上看,企业正在分散风险,但也可能将所有鸡蛋放在一个篮子里。2017年2月的AWS公司的云服务中断影响了Spotify、Dropbox和Trello等服务。2018年的AWS云服务中断影响了Atlassian、Twilio和Slack的运行。因此,云计算安全性并不像人们预期的那样安全。

超大规模的云计算提供商已经构建了他们的基础设施,让客户可以使他们的系统和应用程序可以在AWS、Azure和谷歌云的公共云服务提供独立隔离的可用区域运行。如果企业至少在两个区域构建基础设施,则可以减少或消除单点硬件故障。

这种隔离应该使重大问题不能影响多个区域,因为并不总是发生突发事件。独立的数据中心可以防止电力中断或极端天气等风险,但不能抵御平台范围内的问题。

云计算只是使用别人的电脑

而谷歌公司在美国的一些服务6月2日发生中断,其针对单个区域中的少量服务器的配置更改影响了多个相邻区域中的大量服务器,其结果是导致这些区域超过一半的可用网络容量停止使用。这不仅影响了谷歌公司自己的搜索服务,对Gmail和YouTube等服务也产生了影响,还影响了使用谷歌云的客户。

今年早些时候,谷歌云平台又出现了这类问题。代码更改导致谷歌云控制台和Cloud Dataflow出现问题,从而导致全球谷歌云存储出现错误。今年,由于DNS迁移错误,微软Azure遭遇了一次全球性中断。这个小问题扩展到计算、存储、广告标识服务和SQL数据库。

2019年,云计算服务提供商遇到的数据中心问题并不多,但人们看到的是几个平台范围的问题,通常是由于人为错误。有人说,应用云计算就是使用别人的电脑,但“别人”也会容易出错。

Databarracks公司进行了10年以上的年度IT调查,发现数据丢失的主要原因始终是硬件故障和人为错误。云计算让企业构建自己的系统来处理硬件故障,但是不可能消除人为错误。

云安全:建议管理供应商风险以限制云风险

首先,了解云计算服务的托管位置。知道某些服务托管在同一平台上并不一定意味着需要替换它们,可能只是面临一定的风险。至少通过调查,企业知道涉及云计算提供商的事件会受到什么影响。

对于其他领域,这意味着要做出改变。紧急或批量通知工具不能使用与生产系统相同的云,因为它是企业在中断期间进行通信所依赖的平台。在这里,企业需要深入了解第二个和第三个云计算供应商,以了解使用了哪些云计算服务。紧急通知工具可以托管在一个云平台上,但也可以使用第三方短消息工具(如Twilio)来提供服务。

使用多个云计算提供商的服务

相关推荐