我曾经对重复数据删除的一些误解(一)
如今对于一个企业数据存储容量压力越来越大,因为随着企业的成长与发展,数据量也随之的成长起来,为此企业急需一门技术,能够把存储设备中重复的数据删除,以确保在存储设备中存储的是独一无二的文件。因此重复数据删除技术在近几年中火热起来,也是中小型企业追捧的技术。数据删除技术初衷很简单,就是把重复部分除冗余文件、字节或者数据块减少成一项。它的目的也很简单,就是为了保证存储的数据文件文件不重复,从而减少数据容量。可是由于种种原因我曾经对于这种技术还存在着一些误解。之后消除了这些误区,对我之后使用重复数据删除技术来增加存储设备的使用率很关键。
后期处理重复数据删除技术真的是后期吗?
重复数据删除技术根据其实现的方式可以分为“联机重复数据删除技术”和“后期处理重复数据删除技术”。两个技术各有各的特点。后期处理重复数据删除技术这个名字有些容易让人误解,之前我一直误认为后期处理重复数据删除方式是当所有数据备份过程结束后才进行验证、删除操作的。之后我才知道我的理解是大错特错了。
其实后期处理重复数据删除技术通常是在虚拟的磁带介质写入备份数据后就开始进行工作了。也就是说实在等待虚拟磁带写满之后就开始。当然这中间根据需要有一定的延迟。如存储管理员可以根据不同的情况对这个延迟进行设置。可以只延迟短短的几分钟,也可以延迟几个小时。延迟时间具体为多少,主要还是根据企业的实际情况来选择。我现在通常是将这个作业放在服务器比较空闲的时候进行,此时就会把这个延迟设置的比较长一点,如等到下班后进行等等。
这里需要注意的是一般情况下,为了提高数据备份的效率,会对数据备份进行分组管理。此时等待时间是从第一组备份任务传送备份数据流开始算起。当第一盘虚拟的备份磁带写满或者第一组备份数据写入结束后,重复数据删除处理就不存在延迟等待问题。这主要是因为当系统在进行前一组写入备份数据进行重复数据删除处理时,被分系统可以继续往后续虚拟磁带介质中写入第二组的备份数据。简单的说,就是重复数据处理作业与备份数据的写入作业可以独立运行。从而提高数据处理的效率。
后期处理重复数据删除是否会降低整体备份的效率。
从前我一直认为后期处理重复数据删除是否会降低整体备份的效率,如果光从技术上看,确实是这样的。重复删除方式不仅会占用服务器的资源。而且重复删除方式存在着一定的延迟。但是这是一个比较孤立的观点。因为根据现在的重复数据删除技术,完全可以通过合理的配置来消除这种负面影响。
在实际工作中,我发现后期处理重复数据删除技术降低了数据备份的效率,那么可以通过如下几种方式来消除这个不利影响。一是可以将重复数据删除技术分配到多个单独的服务器上来分担服务器的压力。一般情况下在对已写入的备份数据进行重复数据删除时,不同的处理引擎往往会访问同一磁盘阵列。不过现在的技术可以使得他们访问同一磁盘阵列的不同区域。换句话说,就是可以实现高速的并发处理。这样的话,就不会和持续写入的备份数据流产生任何的冲突,从而不会影响数据备份的效率。二是可以适当调整数据延迟的时间。如可以缩短延迟时间,或者适当延长延迟时间避开数据备份的高峰时间等等。
所以我认为后期处理重复数据删除技术在一定程度上确实会影响到数据备份的整体效率。但是可以通过合理的配置这个负面影响降低到最低的程度。至少与其优势相比,让着个弊端可以忽略。