紧跟去重的脚步:磁盘库后处理去重

日期: 2009-11-16 作者:Jerome M. Wendt翻译:曹同举 来源:TechTarget中国 英文

磁盘库后处理去重 采用Post-processing时,数据在重复删除之前会保留原始的模式。这样允许磁盘库在备份任务不紧张时进行重复数据删除,厂商提供了各种各样的方式来实现post-processing。 昆腾公司的DXi-Series是在数据存储之后再进行重复数据删除。在数据备份完成之前,重复数据删除的初始阶段开始运行。

备份工作在进行时就可以进行重复数据删除,然后进行压缩,这样就解决了post-processing的一个弊端,大大缩减了备份所需要的空间。但是,重复数据删除可能会使用DXI-Series的cache和处理器,这样会影响备份的速度,因为这时备份工作不得不把数据写入到速度较慢的硬盘……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

磁盘库后处理去重

采用Post-processing时,数据在重复删除之前会保留原始的模式。这样允许磁盘库在备份任务不紧张时进行重复数据删除,厂商提供了各种各样的方式来实现post-processing。

昆腾公司的DXi-Series是在数据存储之后再进行重复数据删除。在数据备份完成之前,重复数据删除的初始阶段开始运行。备份工作在进行时就可以进行重复数据删除,然后进行压缩,这样就解决了post-processing的一个弊端,大大缩减了备份所需要的空间。但是,重复数据删除可能会使用DXI-Series的cache和处理器,这样会影响备份的速度,因为这时备份工作不得不把数据写入到速度较慢的硬盘上了。

为了解决上面的问题,ExaGrid system公司的ExaGrid和Sepaton公司的ES2都是在备份完成之后再进行重复数据删除,这样备份和恢复的性能不会受到影响。首先ExaGrid和S2100-ES2对备份后的数据进行压缩,并不进行重复数据删除。当在数据备份完全完成后,ExaGrid对文件在byte级别进行验证,Sepaton通过ContentAware软件对文件在byte级别进行验证,将第一阶段生成的文件跟第二阶段生成的小文件进行比较,相同的文件会被删除,并且用指针指向第二阶段生成的文件,不同的文件会被压缩而不需要重复删除。这种重复数据删除和压缩随着备份任务的重复而重复运行。

用户无法在ExaGrid中加入更多的控制器来处理更大量的数据,而S2100-Es2则可以做到这一点。

重复数据删除的潜在问题

无论哪种重复数据删除方式,都有一些潜在的问题。对于post-processing,随着数据量的增加,备份完成之后,进行重复数据删除的过程时间会比较长。如果重复数据删除在下一次备份之前还没有结束的话,那前面所作的重复数据删除就不会生效。所以用户一定要确保这个过程可以顺利完成。

无论是使用在inline 还是post-processing方式,都无法将数据拷贝到远程磁带库上,这时就必须使用磁带。磁盘库首先需要将重复数据删除,然后再将没有重复删除的数据拷贝到磁带中。ExaGrid system的ExaGrid和Septon的s2100-s2都没有拷贝这个功能,因为它只是进行压缩,不用再重复删除,所以用户可以直接把数据拷贝到磁带中。

其他的一些post-processing磁带库,例如Spectra logical 公司的nTier设备内部可以建立本地master服务器或者媒介服务器,这种方式可以解决备份过程中出现的一些问题。原来的数据流向是:主机—介质服务器—重复数据删除设备—介质服务器—磁带,现在的流程得到了大大简化,主机—nTier设备—磁带。

重复数据删除软件需要跟数据备份软件结合,例如赛门铁克veritas netbackup软件和EMC networker,这就要求重复数据删除软件能够识别并记录备份过的数据。Asigra Televaulting和EMC Avamar 还不能跟其他公司的备份软件结合,Symantec Veritas NetBackup PureDisk集成了Netbackup导出引擎,这样就可以把数据从PureDisk content router拷贝到Netbackup,由Netbackup记录这些数据,然后将它们拷入磁带或者硬盘中。存储管理员可以很方便的使用这些数据。EMC和赛门铁克宣称在不久的将来,他们的备份软件和重复数据删除软件可以完美结合。

还有一点同样需要关注——能否可以对某些特定的文件或着服务器关闭重复数据删除。有些数据经过重复删除以后可能会出现问题。而且,重复数据删除软件对加密过的数据不起作用,硬盘的空间也不会减少,所以用户需要提前知道哪些是加密过的数据。

随着备份的数据越来越多,将重复数据删除技术集成到备份软件中已经变成非常必要。对于只有10TB或者更少数据的中小型企业来说,使用重复数据删除产品(软件还是磁盘库)都可以明显的缩短备份时间。不过这是基于选对产品基础之上的。

虽然Diligent Technologies的 Pro-tecTier 数据保护平台 和NEC的 Hydrastor inline 方式更智能,但它的成本,风险和处理过程还没有被用户完全认可,所以现在大部分的企业还是喜欢采用更加安全的Sepaton’s S2100-ES2 post-processing方式。

回顾上一部分:磁盘库在线去重

相关推荐

  • 简单可靠的平面备份技术

    在过去,很少有人认为平面数据备份可以成为传统备份方式的靠谱的替代者。而到了现在,随着快照技术的不断增强,趋势正在改变。

  • 专家答疑:重复数据删除在云中是如何工作的?

    重复数据删除过程减少了存储系统中的数据量,但云中的重复数据删除可能比客户对云提供者更有价值。

  • 全闪数据中心的数据缩减攻略

    全闪存数据中心的概念之所以很吸引人,是因为它可以消除耗时的系统调优。它使数据中心得以支持最大的虚拟机密度,它的存储响应时间让大多数应用程序提供者都感到满意。

  • 存储采购并非易事

    硬盘市场的下滑并没有带来相应的固态存储市场的蓬勃发展,但固态存储将最终取代机械硬盘,在这一路上也会不断有惊喜。