重复数据删除是如何工作的?

2008-3-13  选择字号:  | |
打印本文章
【TechTarget中国原创】重复数据删除,也被称为智能数据压缩或单一实例存储。它是一种可以减小数据存储需求的手段。重复数据删除的处理过程是通过删除冗余数据,确保实际上只有第一个单一实例数据被存储。而被删除的重复数据将由一个指向元数据的的指针所代替。   重复数据删除可以对文件,块或者位进行操作。在基于文件的重复删除中,如果两个文件完全相同,那么其中一个将作为备份文件被保存,而随后重复的文件将获取指向保存文件的指针。但是基于文件的重复删除并不十分有效,因为哪怕文件只是更改了一个字节,也会被作为另外一个不同的文件全部保存下来。

【TechTarget中国原创】重复数据删除,也被称为智能数据压缩或单一实例存储。它是一种可以减小数据存储需求的手段。重复数据删除的处理过程是通过删除冗余数据,确保实际上只有第一个单一实例数据被存储。而被删除的重复数据将由一个指向元数据的的指针所代替。

  重复数据删除可以对文件,块或者位进行操作。在基于文件的重复删除中,如果两个文件完全相同,那么其中一个将作为备份文件被保存,而随后重复的文件将获取指向保存文件的指针。但是基于文件的重复删除并不十分有效,因为哪怕文件只是更改了一个字节,也会被作为另外一个不同的文件全部保存下来。

  基于块和位的重复删除,软件通过对文件进行比较,只保存每一块的单一重复部分。如果文件更新,那么只有被更改的数据才会被保存。这就是为什么基于块和位的重复删除要比文件级的重复删除要有效率的多。块和位重复删除所能达到的压缩比是从10:1到50:1。

  重复数据删除的处理方式

  每一个数据块通过散列算法(例如MD5或者SHA-1)为每一个数据产生一个特定的散列值。将这个散列值与现有的散列值索引相比较,如果它已经存在于索引中,那么这个数据就是重复的,不需要进行存储。否则,这个新的散列值将被添加到索引中,这个新的数据也因此被存储。

  要使重复删除平台处理更精确,就需要更大的索引。例如,基于文件的重复删除只需要一个百万大小或千万大小的单一散列值索引。相比之下基于块的重复删除会涉及到更多的单一数据块,这个数字通常会达到十亿级。这样精确的重复删除需要更强的处理能力以便可以为其提供更大的索引。除非硬件的设计与对索引的要求相适应,否则随索引的不断扩展,平台的性能将随之下降。

  一般而言,散列算法很少会将两个不同的数据块产生出相同的值。当这样的“散列碰撞”发生时,系统就不会存储新的数据,因为系统看到同一个散列值已经存在。这被称为“false positive”(错误的确定),会导致数据丢失。一些厂商结合不同的散列算法,以降低散列碰撞的可能性。另一些厂商还会检查元数据来确认数据,从而避免散列碰撞。

  其他方式的数据删除

  重复数据删除一般和其他的数据删除技术一起使用,例如压缩和差分delta。数据压缩技术已经问世约三十年之久,它将数学算法应用到数据中,以简化大容量或重复的文件部分。

  差分delta通过只存储相对于原始备份文件被修改的部分,来减小存储总量。例如:一个大约包含200G数据的文件组,与原始备份相比可能只有50M的数据是被修改过的,那么也只有这50M的数据会被存储起来。差分Delta一般用于基于广域网的备份系统,它可以最大程度地利用带宽,从而减少备份窗口的工作时间。

  更快的备份速度和更短的恢复时间

  采用压缩比高达30:1的重复数据删除技术,,300G的数据只需要10G的磁盘空间。显而易见,这为我们节省了巨大的存储空间,因为我们不仅可以节省大量的磁盘空间,还可以延长磁盘的保存期。

  重复数据删除还可以带来一些间接的便利。较少的数据存储使备份的速度更快,从而减少了备份窗口的占用时间,同时也使恢复目标指针(RPOs)变得更小(更近),恢复时间目标(RTOs)变得更快。磁盘存档平台可以相地的存储更多的文件。如果磁带作为最终的备份对象,那么更小的备份只需要更少的磁带,从而降低介质的花费,减小磁带库所占用的空间。

  对于一个虚拟磁带库(VTL)来说,降低磁盘存储空间的需求意味着在VTL上的备份保存时间需更长。例如,一个普通的VTL大约可以保存备份30天,然后将最旧的备份转移到磁带上保存,为之后的备份腾出磁盘空间。由于重复数据删除可以有效并显著地增加磁盘空间,VTL有可能将备份保存两年时间,从而大大地降低了对磁带系统的依靠。

  重复数据删除也可以加快远程备份、复制和灾难恢复处理过程。数据传输可以更快地得以完成,使网络可以去处理其他的工作,传送更多的额外数据或者通过使用低速网络、低价的广域网来降低成本。


重复数据删除
 重复数据删除技术在数据保护过程中有何作用
 重复数据删除的八大评估标准
 结合重复数据删除的虚拟化容灾方案
 选择正确的重复数据删除解决方案
 利用重复数据删除技术进行灾难恢复时需要考虑的四大策略
 有关重复数据删除技术的五大误区
 重复数据删除和VMware DR结合节约成本
 如何评估基于硬件的重复数据删除产品
 重复数据删除技术如何缓解存储需求
 重复数据删除in-band VS out-of-band
 CAS和重复数据删除:归档双雄
 如何通过重复数据删除降低存储成本
 重复数据删除是如何工作的?
 压缩、重复数据删除和加密的区别
 确保重复数据删除系统的高可用性
 如何评估基于软件的重复数据删除产品
 重复数据删除技术的安全性如何?
 重复数据删除技术对备份的作用
 重复数据删除技术的实现方式分析
 技术对比:重复数据删除技术、数据压缩技术和单一实例存储技术
 专访Hifn:重复数据删除是存储发展的必然选择
 重复数据删除:能否由次级存储转移到主存储?
 重复数据删除将走进主存储系统
 专访飞康:重复数据删除更应考虑数据安全问题
 压缩技术对重复数据删除技术造成压力

还没有登录? 阅读全文请先登录或注册
用户名:(请填写您的E-mail做为登录账号)
  • 获取最新的IT业界资讯、市场动态、行业趋势等独家原创内容。
  • 分享国内外技术专业人士提供的技巧经验。
  • 利用专注IT的技术资源中心,不断更新专业知识。
  • 享受白皮书、Webcast等系列特色增值服务。
  • 免费参加TT中国举办的各种会员活动。
  • 更多的精彩服务,在不断开发中……
用户名:(请填写您的E-mail)
密 码:
 永久登录
请输入您的登录email:
提高存储高效性并不适用于主存储。没有人会把这么重要的事情搞砸,在二级存储上有很大的备份文件。通过压缩和重复数据删除技术来减少主存储……
据TechValidate的最新研究发现,最终用户所关注的对象逐渐由性能和数据压缩率转向数据完整性、可恢复性和易用性等问题……
目前,重复数据删除技术十分流行,而我们见证其成长的Lempel-Ziv (LZ)压缩技术虽然略显陈旧,却依然性能良好。
随着市场的推广,国内用户对重复数据删除技术的接受程度也得到快速提升。那么重复数据删除在实施过程中要注意哪些问题呢?
主存储将会是重复数据删除技术的下一个前进领域,但是这却也可能成为我们在如何更好的优化存储空间这个问题上遇到的最大的分歧点……
几年前持续数据保护(CDP)出现时,人们都认为这种产品能够取代传统的备份软件。当时CDP供应商预测IT管理人员都会放弃原来的备份软件,因为它们需要每周一次完全备份、每天一次增量备份……
公司要采购各种各样的设备,在采购的过程中会有很多的技巧。了解这些技巧对我们来说是非常重要的,必要时可以起到事半功倍的效果。
交换机在应用中会出现很多问题,为了在网络中能够满足更多的存储平台或主机服务器,交换机需要定期扩展或替换。交换机通过升级可以达到更好的性能,增强网络的有效性,限制网络流量并提供智能化功能,比如对网络的虚拟化。
最新更新
专家答疑
技巧
Pierre Dorion
我们要购买5TB SATA存储系统,这个系统可以升级到50TB,并且可以和SATA、FATA共用。它也应该能支持多重OS和RAID级别,哪一个对于我们的需求是最好的套件呢?
Jo Maitland
SaaS存储服务会减少存储设备总数和购买的存储容量吗?近期看来没有什么显著的不同。但是从长期看,随着越来越多的服务建立在云计算上……
Greg Schulz
我们有两个负载均衡网络服务器,都是可用的,正在尽力访问SAN上的相同的LUN。我们在操作系统和EMC SAN上用Windows2003标准版本。我们如何实现并行写入SAN……