大数据与云计算背后 绕不开数据保护这道坎

次级数据保护在大数据领域的全新应用

通常我们把除生产数据和原始数据以外的数据,包括副本数据、备份数据和灾难恢复数据等统称为次级数据。过去,次级数据只有一个作用,就是在灾难发生后把次级数据恢复过来给生产使用。如今,随着大数据技术的发展,次级数据的运用领域已经扩展开来,初级数据和次级数据之间的界限也越来越模糊。近几年,灾备领域的发展呈现两大特点:一是为了提升次级数据的访问速度,提高利用效率,数据备份和容灾的介质由磁带向磁盘过度;二是传统的封闭式接口必须打开,用开放式的接口让前端的应用软件能够方便的对次级数据进行访问和调用。

Commvault大中华区技术总监蔡报永在接受记者采访时表示:“对传统的数据保护和备份的厂商而言,如何盘活次级数据,把次级数据存储打开来,采用开放的接口让前端的分析软件能便捷的访问,从而将其用于开发、测试等多种数据应用场景,是当前备份厂商面临的一大挑战。”

很多企业在做大数据分析时,普遍的作法是从各个生产系统中抓取数据,然后放到大数据平台上,经过存储、分析,形成决策并反过来指导生产和销售等。蔡报永认为,“如果企业的数据管理做得好,次级数据里存储的数据是丰富且完整的,那么只需将次级数据的接口开放给大数据分析平台,就可以在做好数据保护的同时,盘活你的次级数据,同时又能节省一定的存储成本。”

2017年下半年,Commvault推出了HyperScale存储技术,能够为客户提供具有简洁性、弹性、恢复能力、灵活性和扩展性的本地次级数据管理。企业将次级数据直接放到HyperScale存储上,优点是备份时写入速度快,且能给前端分析及查找的软件提供API接口,使之能提供类似一级存储一样的访问性能,帮助企业驱动关键业务和IT转型。以前,我们在测试的过程中要想调用备份数据,必须将备份数据恢复到另一平台,非常耗时,如果在HyperScale上则可以通过API标准直接访问,供测试环境使用,并在瞬间完成访问。蔡报永认为这是次级数据保护和使用的重大改变,从传统的只供灾难恢复来用,到现在的以测试开发、即开即用的方式开放给大数据分析平台,而无需临时存储,让企业能够更加便捷地在完整的数据平台上进行数据加工和数据挖掘。

大数据与云计算背后 绕不开数据保护这道坎

Commvault大中华区技术总监蔡报永

云和Hadoop天生的容错能力并非绝对安全

无论是云还是Hadoop,都是分布式架构,其多副本的模式拥有一定的硬件容错能力,但是企业的数据放在云上或Hadoop上并非绝对安全。蔡报永提到,有些金融公司用Hadoop平台也存在数据丢失的情况,2017年全球最大的云服务提供商AWS的云存储服务也曾发生宕机事件,由此可以看出,多个副本相互拷贝,任何一个副本坏掉,所有的副本都会坏掉,并不像数据管理软件那样可以保证将某个时间点的数据副本保存好。由云计算的发展趋势可以看出,过去的云服务商最大的卖点是计算资源和存储资源,而如今,很多云服务商开始用云服务的基础架构为用户提供数据保护。

统计数据显示,AWS及Azure等主流的云存储资源中,有30%到40%的数据是客户的备份数据,而这些主流的云服务商并未承诺任何的备份服务,这也提醒企业在上云的同时仍需要考虑数据保护和备份。蔡报永提醒,云上的数据并不那么安全,甚至比在本地更糟糕,因为本地只要备份一份,坏了还可以迁移数据,如果完全依赖云服务商的话就没有数据可供恢复啦。因此,尽管你用了云服务,还是需要单独的数据管理和数据保护服务。

相关推荐