RSS订阅
RSS订阅TT存储

重复数据删除产品一览

2008-3-18  选择字号:  | |
打印本文章

导读:重复数据删除就是在一个存储系统中删除重复比特信息的过程。让我们看一看重复数据删除产品和厂商。

关键词:重复数据删除 存储系统 重复数据删除产品

正在加载数据...

【TechTarget中国原创】简言之,重复数据删除就是在一个存储系统中删除重复比特信息的过程。但作为一个市场,它才刚刚起步,不同的厂商为想购买重复数据删除的客户提供了不同的产品,这也使得实现重复数据删除的方式变得多样化,而客户面临的则是困难的抉择。

  提供重复数据删除的厂商基本上可以分为两个阵营:In-line和Post-process。In-line是指数据保存到二级存储系统前进行重复数据删除;而Post-process是指在数据备份处理之后才进行重复数据删除。

  In-line重复删除的优势是备份过程只需进行一次。In-line阵营的厂商认为,设备足够强大时,Post-process的重复删除会增加备份窗口的占用时间。但是Post-process重复删除的优势在于,无需担心由于重复删除处理使CPU负担加重而导致备份服务器和二级存储目标之间出现瓶颈。

  对于这两个方案,专家警告说,客户不应该太关心磁盘的购买问题,尤其是在开始阶段。GlassHouse Technologies公司.数据保护服务部副总裁W. Curtis Preston说:“通常有这样一个误解:比如,用户听到他们只需要1TB就可以存储10TB的备份……然后他们就会去购买1TB的磁盘,只意识到按照定义的理解,他们需要10TB作为初次备份之用。”但实际上,只有在初次备份完成之后,才有可能去进行基于位的比较。

  厂商

  撇开In-line与Post-process的争论不谈,我们将进一步讨论它们之间的差异——不同的厂商及其不同的重复删除方式。

  Data Domain Inc.是最早推出重复数据删除产品的公司,已有750多个客户安装其产品。它的产品既可以通过虚拟磁带库(VTL),也可以通过NAS接口来实现,包括从适用于分支机构的DD410模型到容量高达千兆兆(PT)的DDX系列阵列。Data Domain公司采用In-line方式,采用SHA-1算法,其专有的运算算法用于二级检查。它将比较索引储存到高速非易失性RAM中。使用Data Domain公司的产品,单个数据流可以达到每秒110MB。该公司宣称,它们正在努力开发一个集合所有性能的群集结构,预计可在明年推出。

  Diligent Technologies公司通过其产品ProtecTier VTL来提供重复数据删除服务。该产品也由Hitachi Data Systems (HDS)公司负责经销。Diligent通过在光前通道磁盘中保存比较索引,进行In-line重复删除的处理。据称这样可以加快处理过程,不过,成本也可能增加。和Data Domain公司相比,Diligent公司在重复删除的过程中使用其专有的散列算法。公司称其产品性能指标要优于Data Domain,传输率高达每秒400MB。Diligent和Data Domain有着不同的市场定位——Diligent主要针对高端客户,而Data Domain则针对的是中端客户。Diligent称他们拥有150个客户。

  Avamar,成立于1999年,去年被EMC Corp.公司斥资1.65亿美元并购。它是第一家被大厂商收购的从事重复数据删除的公司。Avamar也使用SHA-1算法,In-line重复数据删除。但与众不同的是,它在源机器(备份服务器)上,而不是在备份目标上工作。它使用中心控制节点来跟踪整个环境中的数据,并进行比较,但是重复删除却是先在每个服务器上完成小块数据的处理,然后再通过网络传输给备份目标,。正因为如此,Avamar公司的重复删除除了可以减小在二级存储目标上的数据外,还可以减少网络堵塞。Avamar公司的重复删除产品需要更换整个备份系统。EMC称,已经计划在明年将其整合到Legato产品家族和VTL中。

  ExaGrid Systems公司的Post-process型重复数据删除是作为其NAS备份产品的一部分推出的。不像其他重复数据删除的产品,ExaGrid的比较是基于字节,而不是位。据称,这样可以简化散列表,具有更好的扩展性,减少基于位的碎片错误空间。ExaGrid的产品也具有“内容识别”,这意味着其产品可以理解主要备份软件产品中常见的数据类型,从而可以相应地找到重复的数据。

  FalconStor Software(飞康软件)公司旗下的VTL和IPStor产品线所具有的单一实例存储库(SIR)特点在市场上尚未成熟。它的Post-process产品使用IPStor虚拟化引擎和SHA-1算法(使用MD5算法进行二次检查),为已备份到VTL、长期的归档数据创建一个独立的重复删除存储库。IBM和Sun Microsystems都是VTL产品的OEM厂商,但IBM不提供SIR,而SUN预计到今年年底才提供。

  Quantum(昆腾)公司去年收购了Advanced Digital Information Corp. (ADIC)公司,融合其技术,于十二月份推出DXi3500和DXi550产品。这种基于VTL的In-line重复删除产品使用的是属于ADIC子公司RockSoft的专利算法。在收购ADIC后,近来Quantum公司将该重复删除技术作为一大特点纳入StorNext文件系统产品,并称这是一个功能一体化的数据迁移和管理引擎。
NEC Corp. of America是日本NEC的子公司,今年三月推出的HydraStor网格备份设备,其重复数据删除技术是一大卖点。Hydrastor专有的重复删除技术, 亦称为DataRedux ,消除了子文件级和传入数据流中的重复数据删除需求。在HydraStor的网格结构中,控制器随着容量的增加而增加,每个节点都与其他的任意节点相感知,这样减少了In-line产品有时可能出现的性能和管理方面的问题。NEC称,可以减少存储量高达至75%,而且性能不受影响

  Network Appliance(NetApp)公司五月十五号宣布,经过第一季度在客户环境下进行的Beta测试,其NearStore R200和FAS存储系统可以提供基于块的的重复数据删除技术。该重复数据删除技术是NetApp公司基于由SnapLock产品发展为 A-SIS(先进单实例存储)产品开发出来的。NetApp使用其Write Anywhere File Layout(WAFL)中的一项功能,将A-SIS加入到滤波器中。WAFL为存储的每个数据块计算出一个16位的校验值。为了进行重复数据删除,散列值将被存入数据库,这样相似的“重复候选”就能够被区分。这些数据块将被一位一位地对比,如果它们是相同的,那么就删除新的数据块。

  NearStore的用户可以得到免费授权并且在主存储上进行基于块的重复数据删除。这在重复数据删除技术中,显得较独特。但是,Netapp公司在关注起产品性能的同时,还需要在其VTL增加该功能。

  Sepaton公司的重复数据删除通过被称为DeltaStor的软件,在其产品S2100-ES2 VTL上来实现的。该Post-process重复删除技术使用其专有的“内容识别”算法。Sepaton公司称目前在重复数据删除领域具有一定的声望。其事实是,它采用了一种称之为“forward referencing”(前向参考)的过程,不同于其他产品采用的“reverse referencing”(反向参考)。反向参考是指,如果再次出现与原始数据相同的数据时,就将其用一个指向原始数据的指针来代替;前向参考只写入最新版本的数据,使得原有的指针可指向最新版本。Sepaton称通过原封不动地保留最新的备份,这种方法可以更快地恢复数据,因为在一般规则下,最近的备份是最有可能得到恢复的。

  Symantec(赛门铁克)公司有一个产品可与Aamar媲美。这就是目前已经纳入到NetBackup软件中,叫做PureDisk的软件。与Avamar一样,该产品使用一个其专有的算法在源机器上进行In-line重复数据删除。最新的NetBackup 6.2版本支持PureDisk进行目标磁带备份,并将PureDisk集成到Backup Reporter的备份监控工具中。6.2版还支持多个PureDisk服务器的故障转移。之前报道说,该公司在6月份的公告中宣布NetBackup的6.5版将进一步加强NetBackup和PureDisk之间的整合。

【美国TechTarget独家授权】 Product roundup: Data de-duplication

【原创内容,版权所有,谢绝转载。TechTarget中国将保留追究其法律责任的权利。】
作者:Beth Pariseau     译者:陈晶   
回首2008,数据保护/数据备份见证了一些显著的趋势。企业都在关注高效,节省成本和环境可持续性。IT企业面临的问题包括……
虽然存储的售价一直都在不停的下降,但也远远赶不上公司内需要保存和备份的数据量的攀升速度。那么,是否有这样一种解决方案,它能够压缩大量的已有数据……
人们对二级存储市场的关注主要集中在磁盘备份模式中的重复数据删除技术。重复数据删除具有许多优点。你不仅可以将磁盘中的数据保留更长时间……
在VTL或备份设备上做重复数据删除怎么样?有什么性能影响吗?在性能方面有点不同的影响。基于备份的重复数据删除是你并不是减少传输到网络上的数据。
本文讨论的是数据不定期损坏的问题,并非一定会发生,即使是发生数据损坏事故的概率远低于廉价SATA的高端企业光纤信道驱动器也不能例外。

2009年对于备份来说是关键的一年。预算在减少,但是备份的数据总量却在增长。新趋势像重复数据删除使它更具有吸引力。在常见系统中,数据备份最多使用的是读写操作;通常,备份问题在影响日常操作之前,都会显现一定的征兆。因此我们总结了2008年最受欢迎的备份技巧,希望可以给大家一些帮助。

存储区域网络(SAN)和网络附属存储(NAS)在网络存储中的支柱作用毋庸置疑,但是直接附属存储(DAS)依然盛行,即使在企业中也是如此。TechTarget专家将深入DAS在企业中的应用以及在应用过程中遇到的问题。

对于整个存储解决方案来说,交换机固然是存储网络环节中极为重要的一部分,但是HBA卡也是其中不可或缺的一环,甚至可以说HBA卡性能的高低直接决定了网络的整体性能。所以什么是总机总线适配器呢,在购买时要注意什么问题呢,以及在升级的过程中该注意什么问题呢? TechTarget专家将深入给我们讲解总机总线适配器(HBA)。
最新更新
专家答疑
技巧
Randy Kerns
我有一个客户,他想把1TB左右的存储加在他们的网络上。我想用HP DL380和MSA30以及300GB的磁盘。网络中NAS和DAS的性能有什么不同呢?
Pierre Dorion
我们要购买5TB SATA存储系统,这个系统可以升级到50TB,并且可以和SATA、FATA共用。它也应该能支持多重OS和RAID级别,哪一个对于我们的需求是最好的套件呢?
Jo Maitland
SaaS存储服务会减少存储设备总数和购买的存储容量吗?近期看来没有什么显著的不同。但是从长期看,随着越来越多的服务建立在云计算上……