重复数据删除技术的优势及部署

日期: 2011-08-24 作者:Pierre Dorion翻译:张瀚文 来源:TechTarget中国 英文

从最初很小的市场规模到今天被市场广泛接受,重复数据删除技术的成长由不断增长的供应商所印证,这些供应商已经有标准的重复数据删除产品,或在其备份产品中整合了这部分功能。本篇回顾了重复数据删除技术的各项优势,并进一步分析了这些优势在具体应用环境中如何发挥其作用。 文件、数据块和长度可变的数据段的重复数据删除技术 基于所采用的不同技术,数据是否重复可以有不同的检测方式。举例来讲,文件级的重复数据删除(亦称为实例存储,SIS)可以识别完全一样的文件,将其仅保存一次,并将后续完全一致的拷贝替代为指向该文件的一个指针。

基于文件级别的重复数据删除技术有Novell公司的GroupWise和Microsoft公……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

从最初很小的市场规模到今天被市场广泛接受,重复数据删除技术的成长由不断增长的供应商所印证,这些供应商已经有标准的重复数据删除产品,或在其备份产品中整合了这部分功能。本篇回顾了重复数据删除技术的各项优势,并进一步分析了这些优势在具体应用环境中如何发挥其作用。

文件、数据块和长度可变的数据段的重复数据删除技术

基于所采用的不同技术,数据是否重复可以有不同的检测方式。举例来讲,文件级的重复数据删除(亦称为实例存储,SIS)可以识别完全一样的文件,将其仅保存一次,并将后续完全一致的拷贝替代为指向该文件的一个指针。基于文件级别的重复数据删除技术有Novell公司的GroupWise和Microsoft公司的Exchange邮件系统(虽然在Exchange 2010中并不支持SIS)。EMC公司同样在其存储阵列上提供文件级别的重复数据删除,包括Clariion、Celerra和其最新的VNX系列。

文件级别的重复数据删除技术的劣势在于精细度不够,并且不能提供次文件级别的重复数据删除功能。这意味着一个文件中即便有很小的一处改动也会被认为是一个全新的文件而另外储存。文件级别的重复数据删除一般用于邮件环境,这其中同样的附件会被同时发送给诸多参与者,或者是非结构化的数据存储环境中,这种环境下变化率很低。不过,文件级别的重复数据删除并不适用于结构化数据环境中,这种环境下诸如数据库等会持续变化。

为了解决文件级别的重复数据删除技术缺乏精细度的特点,各厂商将数据分割成更小的“数据块”,以固定或变化的长度。只存储唯一性的数据段并将识别出重复的其它数据段的用指针方式代替,这样就能够实现更高的数据删除率。CommVault系统公司、FalconStor软件公司和NetApp公司都是采用块级别重复数据删除技术的厂商;而相对的,EMC的Data Domain、Avamar和Sepaton公司的产品都是基于长度变化的数据段的。这和数据块级别重复数据删除技术的不同之处在于,数据块的方式下,一个数据块的变化会引起整个数据集中所有数据块都被作为新的数据块存储,因为整个数据集变了。在长度变化的数据段的重复数据删除技术下这种情况会好些,不过这种技术更为复杂并消耗很多资源。次文件重复数据删除技术(块级别或长度变化方式)在备份环境中经常使用,这种环境下多个文件备份版本通常仅包含很小的改动。

带内 VS.带外重复数据删除技术

重复数据删除技术可分为在线(或称带内)方式,即数据在写入存储介质时分析是否有重复,以及相应的,后处理(或称带外)方式则在数据写入磁盘后再进行重复数据删除操作。带外的重复数据删除技术的优势在于其不会影响写入性能,不过这样就要求有足够的磁盘空间来存储所有数据,直到业务非高峰时刻时进行的重复数据删除操作。另一方面,带内的重复数据删除技术可以在第一时间减少空间占用,不过其更耗资源,这有可能会影响写入的性能。采用何种技术是对于实时数据减少和性能之间的权衡,不过随着技术的进步,性能减少的影响将更容易被接受。带内的重复数据删除产品包括FalconStor的产品,以及EMC的Data Domain和Sepaton,IBM公司的ProtecTier(之前的Diligent产品);而NetApp则提供带外的重复数据删除技术。

源端 VS.目标端重复数据删除

基于所采用的技术,重复数据删除可以在源端(数据发出端)或者目标端(数据接受端)进行。区别在于所针对的备份环境,备份环境通常基于客户端/服务器模式(或称为发送端/接收端模式)。源端重复数据删除在备份客户端上安装软件,客户端和备份服务器都必须支持重复数据删除。这意味着在现有的备份环境中可能需要进行修改。而另一方面,目标重复数据删除通常不需要更改环境,支持重复数据删除的目标设备会被备份服务器认为另一台磁盘阵列或虚拟磁带库。源端重复数据删除适用于降低所要通过网络传输的数据,比如从远程办公环境中备份至中心节点。决定时权衡点在于源端的重复数据删除会影响客户端的性能,并从而波及到整个备份环境,并且重复数据删除仅限于客户端级别的数据,而不会考虑多个备份客户端可能有相同的数据。

设备方式 VS.软件方式

另一项考虑因素是选择设备方式还是软件方式的重复数据删除。设备方式的重复数据删除通常可以和现有环境无缝整合,无需太多变动。举例来说可以配置一台备份服务器将数据写入支持重复数据删除的磁盘阵列(比如EMC的Data Domain)。另一方面,重复数据删除软件通常需要改变你的现有环境,尤其是从基础备份软件迁移到支持重复数据删除的备份软件时。

竞争友商可能会宣称设备方式的重复数据删除会让硬件厂商锁定用户,使得用户必须使用某种存储或设备。不过基于软件的重复数据删除同样有厂商锁定的风险,重复数据删除功能也会被限定在某种特定软件平台上。

诸如IBM和NetApp等供应商提供网关设备,可以提供重复数据删除数据存储在第三方存储上。不过从各种角度看,不论硬件还是软件方式的重复数据删除都是私有化的技术。

重复数据删除可以为用户带来诸多利益,不过如何选择合适的重复数据删除方式需要仔细地考量你的备份环境。

相关推荐

  • 简单可靠的平面备份技术

    在过去,很少有人认为平面数据备份可以成为传统备份方式的靠谱的替代者。而到了现在,随着快照技术的不断增强,趋势正在改变。

  • 专家答疑:重复数据删除在云中是如何工作的?

    重复数据删除过程减少了存储系统中的数据量,但云中的重复数据删除可能比客户对云提供者更有价值。

  • 全闪数据中心的数据缩减攻略

    全闪存数据中心的概念之所以很吸引人,是因为它可以消除耗时的系统调优。它使数据中心得以支持最大的虚拟机密度,它的存储响应时间让大多数应用程序提供者都感到满意。

  • 存储采购并非易事

    硬盘市场的下滑并没有带来相应的固态存储市场的蓬勃发展,但固态存储将最终取代机械硬盘,在这一路上也会不断有惊喜。