微软、阿里云、腾讯云等问题频出,云计算怎么了?

云计算最近的热闹不少。

8月5日,一家创业公司“前沿数控”发文,称其在腾讯云上数据全部丢失。之后腾讯云对此回应称,该事故是因所在物理硬盘固件版本bug导致的静默错误且运维人员存在不规范操作所导致,并表示了道歉与赔偿。

至此,在一年多的时间里,微软、AWS、阿里云、腾讯云等主要云计算服务商相继出现问题,这也让外界产生疑惑:云计算怎么了?

微软、阿里云、腾讯云等问题频出,云计算怎么了?

近些年,企业上云已成趋势,而云一旦出问题,很可能影响颇大;然而就像天底下没有不生病的人一样,云计算也自然也不可能百分之百完全不出问题。这次的腾讯云事件,刚好可以用来聊聊这个话题,让我们透视云计算平台与企业如何应对可能存在的问题。

没有绝对不出问题的云计算

但我们或许可以借此讨论这样一个问题:云计算平台不出错的理想情况,到底是否可能?

答案当然是否定的,任何云计算平台都有发生事故的可能。云计算本身是一种本地存储与运算的替代方案,所以本地计算可能出现的软硬件问题,也将映射到云计算体系中。

当然,随着云计算技术的不断进步以及产业服务能力增强,今天我们看到云计算应对风险的技术解决能力、容灾能力、应急冗余能力都在提高。

但同时也应该看到,云计算的另一面,是体系复杂化、碎片化的业务需求,更加复杂的云计算应用体系以及云计算+AI、云计算+IoT等新业务种类,导致出现风险的场景更多。比如去年英国一个移动应用企业发生了数据崩溃,原因在于企业员工违规收取了邮件,最终导致云存储数据被大规模劫持。

不过从另外一个角度来看,云厂商提供给用户的真正有价值的服务并不是一个一定不会出问题的服务,而是让企业可以低成本快速的搭建一个服务冗余、一定容灾的架构的能力。从腾讯云的案例中我们可以看到,云计算的问题可能很复杂,而平台的处理能力是解决问题的第一方案。

出现了问题,云计算平台如何应对?

让我们回顾一下腾讯云这次事件中,数据丢失到底因何发生:

根据腾讯云方面的技术复盘,该故障缘起于因磁盘静默错误导致的单副本数据错误,再加上数据迁移过程中的两次不规范的操作,导致云盘的三副本安全机制失效,并最终导致客户数据完整性受损。具体原因是,是因为运维人员在收到仓库空间使用率过高警告后,准备发起搬迁扩容。在搬迁国产中,为了加快速度,手动关闭了迁移过程中的数据校验。而在搬迁完成后,运维人员将出事故云盘访问切至新仓库,同时为了释放空间,对原仓库中的源数据发起了回收操作,之后发现部分云盘出现IO异常。

本次事故起源自因磁盘静默错误导致的单副本数据错误,再由于数据迁移过程中的不规范操作,导致异常数据扩散至三副本,进而导致客户数据完整性受损。

腾讯云已经正式道歉,并从技术角度坦诚了相关问题的存在。

由于云计算事故的问题,往往来自复合型问题、细节问题。而往往平台讳莫如深,甚至想要撇清责任,是导致事件复杂化的直接原因。而腾讯云此次的坦诚方案,在业界还是收获了一定的肯定

而通过腾讯云的事件,我们可以看到真正能够有效降低云计算故障的方法,是在出事前进行干预。比如说:

1、搭建应急预案,不断更新容灾技术与容灾机制,可以在出现问题时快速、低成本搭建应急架构。这是云计算平台应对可能事故的核心,而容灾机制与技术的双重保障,也是云服务品牌的核心竞争力。

2、规范化管理流程,尤其涉及数据问题时的人工操作流量。腾讯云事件中可以看出,人为不规范操作是造成很多重大损失的起因。而严格的流程化和去人工可能是较好的解决方案。

保障数据,企业用户也需配合

云计算平台自然也不是万能的。对于用户来说,选择合理的服务体系、积极做好兀余和备份工作,是进一步降低风险的举措。

另一方面,云计算服务中还有一项功能,叫做云盘快照。也就是企业可以定期来复制备份自己的数据,作为应对可能性事故的备案。而恰好腾讯云还是少数定期提供免费快照功能的云平台,为避免企业数据丢失,还是应该积极使用类似备份功能,保证自身数据的安全存放。

同时,对于核心数据来说,本地存放与云存储兼顾,是公认的更良性策略。

目前,出于市场业务细分化的需要,所有云计算平台都在提供更细节化、碎片化的服务选项。但很多时候企业并不能为了节约成本而购买单一服务,而是需要设置符合自身发展需求的云计算策略,并做好重要数据本地备份。

毕竟,狡兔三窟总归不是错误。

合理用云,前提是正确认识云

综上所述,我们可以发现,为了解决类似问题,需要云计算平台、企业客户,包括行业监管、法规定制等方向的共同努力。我们可以从以下几个方面,看到未来化解类似矛盾的可能:

1、技术层面,更加简便优质的容灾备份服务显然是主流。而在今天快速迭代的云计算体系中,通过技术保障进一步加强企业数据保障并不是奢望。而更加扎实的平台管理能力,和快速调查事故原因的能力与执行规则,也是平台企业未来需要提供的用户价值。

2、权责分明的服务关系。类似案件中,平台故障当然是主因。但企业事故也可能最终导致数据危险。

因此,平台方向企业方提供明确的风险提示,并建议做好关键数据备份;企业方购买符合自身发展需求,较为合理的云计算业务体系,都是避免最终矛盾的解决方案。另外很多云计算业务,其实都来自企业应用层面的问题,那么责权如何进一步划分,也是应该解决的问题。

相关推荐