NetApp:后处理重复数据删除影响主存储数据去重性能

日期: 2009-12-29 作者:Carol Sliwa翻译:Michael Zhang 来源:TechTarget中国 英文

NetApp公司在它的FAS和V系列系统中提供了基于Ontap操作系统的重复数据删除技术。他们认为,Post-process的重复数据删除是降低消重性能损耗的主要因素,大概会有10%-20%的比例。写操作将被缓存到内存里,这样大大减小了与应用之间的通信传输。重复数据删除操作将被安排在稍后的时间里或者一个既定好的时间里运行,通常是在系统非高峰时期,或者也会根据存储卷的增长情况来自动调配运行的时间。

“它一直都是在后台运行,也总是在写完成后才执行。”作为NetApp存储效率方面的高级市场经理,Larry Freeman这样评价道。”如果你使用的频率更高,那么它将会运行的更快,因为在产生很多重复的数……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

NetApp公司在它的FAS和V系列系统中提供了基于Ontap操作系统的重复数据删除技术。他们认为,Post-process的重复数据删除是降低消重性能损耗的主要因素,大概会有10%-20%的比例。写操作将被缓存到内存里,这样大大减小了与应用之间的通信传输。重复数据删除操作将被安排在稍后的时间里或者一个既定好的时间里运行,通常是在系统非高峰时期,或者也会根据存储卷的增长情况来自动调配运行的时间。

“它一直都是在后台运行,也总是在写完成后才执行。”作为NetApp存储效率方面的高级市场经理,Larry Freeman这样评价道。”如果你使用的频率更高,那么它将会运行的更快,因为在产生很多重复的数据之前,我们已经找到了那些需要被删除的数据了。”

Inline重复数据删除VS post-process重复数据删除

NetApp的post-process重复数据删除会被拿去和其他主流的备份重复数据删除产品进行对比,比如类似EMC Data Domain的Inline重复数据删除技术。Inline消重技术将那些看起来重复或者浪费空间的数据实时删除,但在Freeman看来,对于主存储,这样的重复数据删除方式对CPU的影响太大了。

“它们在存储控制器上就开始拦截数据,因此他们需要作出实时的判断:我是该存储它还是应该先去比对下?”Freeman对Inline消重技术的产品如此评价。“你必须先去将数据元和其他之前没有存储过的数据元进行比对,这是通过一些复杂的查找表方法和哈希值比对来实现的,但是随着系统里的数据越来越多,查找的广度就越大,这样系统的速度就会变得更慢。”

Freeman说,厂商最开始的初衷是将重复数据删除技术应用于备份以及归档,但客户发现,这项技术在对VMware的虚拟磁盘VMDK文件文件的空间降低上非常有价值。他说,“我们一开始推销这项技术,这项技术就开始飞速发展了,一点回头的势头也没有。重复数据删除这个技术目前也成为了主存储上的焦点。”

NetApp的post-process重复数据删除系统使用了一个指纹目录来确定那些需要被删除的重复数据。每个编目大小为32byte,通过特定算法而生成的指纹,同样也被称之为数字签名或者哈希值,作为一个4KB大小数据库的参照比对。当一个系统发现2个指纹是吻合的,它就会将对应的数据块放进内存进行byte级别的验证时确保是相同的文件或者是hash值重复了。

基于多数据块的参照比对技术就这样问世了。每个数据块都有一个指针的指向。如果2个数据块被证明是一样的,那系统就会将其中一个数据块的指针指向另外那块的同样位置,之后被消重后的空间将被释放回给剩余的存储池。

然后Freeman也提到,NetApp的Data Ontap操作系统也更易于实现重复数据删除是因为它本身就有一个带有数据指针的文件系统,更方便为多数据块的参照比对服务。他说,“关于重复数据删除操作我们所需要的全部,就是将创建一个指纹编目库用于识别重复的数据。”

NetApp可以对系统上的任意裸数据进行重复数据删除操作,不管是在SAN上的或者是在NAS上的。系统本身支持基于单独卷的重复数据删除技术,卷的最大值不能超过16TB。未来的计划是,根据客户实际需求将最大极限提升,同样也会实现跨卷的重复数据删除操作。

Freeman透露,在所有的存储层次上,平均节省的空间高达30%,考虑到了负载性能以及应用等多方面因素。他也说,公司并没有根据不同的存储层次来进行节省空间程度的划分。但在广泛使用的案例上,对VMDK文件的压缩程度使得空间节省了近70%,他补充道。

美国机场管理局表示,在2月使用了NetApp FAS 3140的重复数据删除技术后,1TB大小的基于CIFS的共享盘省了近30%的空间,600GB大小的基于NFS的存储也节省了有22%之多。

亚历山大退伍军人联合会的IT高级副总裁,Patrick Osbome说,“如果我不用担心将数据装满的同时,因为使用了重复数据删除技术,我还能存放更多的数据,那我就不会仅仅只在本地存放数据,而是将数据更多的复制出去,同时也会有一个更好的灾备方案,最关键的是,这并不会占用太多的带宽。”

但是,Osborne说他并不愿意将他所有的数据都进行重复数据删除处理。联合会选择不要对培训的录像以及高敏感度的关于生物计量识别的文件进行消重操作,以免带来损坏数据的可能。

“我把这个带到我的用户那,告诉他们,你们看NetApp的FAS 3140可以帮我们省下不少空间,但我们不知道这些是如何实现的”Osborne说道,他们回答说没关系,“因为我已经省下了我一直需要节省的空间了。”

作者

Carol Sliwa
Carol Sliwa

资深编辑、作者

相关推荐