RSS订阅
RSS订阅TT存储

技术对比:重复数据删除技术、数据压缩技术和单一实例存储技术

2008-10-16  选择字号:  | |
打印本文章

导读:大家对于重复数据删除技术的基本概念却知之甚少,经常把重复数据删除技术、压缩算法技术和单一实例存储技术混为一谈。

关键词:重复数据删除 压缩算法 单一实例存储

正在加载数据...

  由于存储经理们急需降低备份数据量,重复数据删除(data de-duplicantion)技术从而成为近来十分热门的技术。但是大家对于重复数据删除技术的基本概念却知之甚少,经常把重复数据删除技术、压缩算法技术和单一实例存储技术混为一谈。

  在本篇文章中,我们将会从多方面探讨重复数据删除技术,并澄清以下问题:

  什么是重复数据删除技术?为什么该技术适合备份应用?
  重复数据删除技术的重大意义及其客户价值
  影响重复数据删除效率因素
  与传统数据压缩技术比较,有哪些不同之处?
  对比单一实例存储技术,它的优势又在哪里?

  什么是重复数据删除技术?

  按照ESG(Enterprise Strategy Group)的定义,重复数据删除技术是一个减少或消除冗余文件、字节或数据块的过程,从而确保只有“独一无二”的数据被存储到磁盘。重复数据删除技术又被业界称为容量优化保护技术(简称为COP技术)。COP技术被用来降低数据保护时对容量的需求。

  由于我们存储的数据具有很高的共性——用户之间、服务器之间甚至同一文件(如Office文档)的内容是通用的。重复数据删除技术按自然边界把数据拆分为非常细粒度的子块单元,用指针代替相同的子块单元,从而达到显著降低存储空间的目的。利用重复数据删除技术,1TB的备份数据可根据备份数据的共性,存储为300-700GB不等。

  重复数据删除技术的真正价值在于处理已存储过的数据,特别是以下情况:

  • 从不同的服务器备份相同的数据(公用操作系统文件、应用程序文件甚至电子邮件和附件)
  • 大部分内容为“静止”的“活跃”数据,例如数据库、文档、电子表格和演示文稿
  • 已备份过一次的数据

  最值得注意的是最后一种类别。由于备份操作具有高重复性的特征,日备份和周备份的数据大致相同,变化率至多只有5-10%。因此,可以利用数据重复删除技术进行高效的后续备份。特别是针对完全备份的应用场景,如果每天都做完全备份,在这种情形下,每月实现10:1到50:1的备份比率是完全可能的。

  重复数据删除技术的重大意义?

  重复数据删除技术的客户价值是多方面的,但是最显著的优点是解决了一直困扰备份恢复业界多年的“容量膨胀”问题,因为重复数据删除技术可以在后端大为减少备份数据量。

  见下图图示:该图中以相同颜色的块表示重复数据块。重复数据删除的效率取决于应用和数据类型,就像图示中具有相同颜色的块除保留一个外,其余的都会被过滤掉。

 

  重复数据删除的处理粒度越细,则重复数据删除的效率越高。一般的重复数据删除是在文件级实现的,虽然有减少备份数据的作用但其效率明显不如在字节级实现的重复数据删除技术。同样,在块级实现的重复数据删除比字节级实现的效率更高。

  我们通过以下的例子来说明处理粒度对重复数据删除技术而言的重要性:我们创建一个1MB的PPT演示文档,然后通过电子邮件将其发送给20位员工,在传统的备份环境中,由于没有重复数据删除技术,每天晚上执行全备份作业时,这20位员工所接收到的PPT演示文档将作为邮件附件备份,即使没有一位员工对收到的PPT演示文档做过任何修改,备份作业同样要保存20份相同的文档,占用相当大的存储空间(20x1MB)。即使在一家小型企业组织,同样的问题仍然会使浪费宝贵的磁盘空间、能耗和冷却系统。

  在上例中,如果采用文件级的重复数据删除技术,系统会只保留一份PPT演示文档,而其他19份相同的PPT演示文档附件将被指针代替。而指针的数据量比实际的文档要小得多,所以我们可以节省大量的磁盘空间,用来存储其他应用数据或者提高备份数据的保留周期。

  基于字节级和块级的重复数据删除技术作了进一步的优化,它将1MB的PPT演示文档看成是由很多的数据块或字节单元组合而成,与已经存储的数据块或字节单元进行比较,相同的组成单元被指针替换。

  除了处理粒度之外,影响重复数据删除比的因素还有数据类型、数据的变化率以及数据的保留时间等等,这些都会影响实际的重复数据删除效率。根据ESG实验室对几种不同的重复数据技术的测试结果来看,在不考虑处理粒度的情况下,基本上都能达到10倍或20倍的重复数据删除效率。

  备份的最终目的是恢复,以往备份管理员在制定备份策略时,通常采用每天增量备份方式结合阶段全备份方式,如每月或每周全备份。从恢复速度的角度出发,哪一种备份方式更有利呢?显然是全备份方式(full backup),那为什么90%以上的备份管理员还在使用增量备份呢?原因是由于一次全备份的数据量太大,无法满足日益苛刻的备份窗口要求,完全属于不得已而为之。现在是采用完全备份模式的时候了,由于完全备份模式的数据块重复率是所有备份模式中最高的,所以重复数据删除技术非常适合完全备份的场合,因为它能够显著降低每次完全备份的实际存储的数据块数量,从而使用户能在短暂的备份窗口期间完成关键作业的备份,在需要恢复时,又能较快地恢复出保留周期内任意一天的数据。

  在部署备份和恢复的普通磁盘时,经济因素限制了从磁带上卸载并转存到磁盘的数据量。使用数据重复删除技术,在相同的磁盘空间内,以前只能保存最近一周的数据,现在可以存储一个月或更长时间的数据,因此大大增强了恢复选项。

  这一优势使 IT 部门能够成本有效地在磁盘上保留数月的备份数据,适合从 250GB 到超过 10TB 的主数据集。其结果可以实现更快、更可靠的恢复,并能大幅度增加数据恢复点的数量。

  什么是单一实例存储技术?
  如果当存储的装置里面有很多的数据或文件,它是相同的内容而且是重复的时候,用户往往会浪费大量的磁盘空间,这对于用户来讲是很高的管理成本和使用成本,单一实例存储这个技术就会帮用户解决管理问题和大量的节省存储的空间。SIS被启用后,就会作为一个后台的服务运行,把内容重复的文件合并到一个共用的存储空间。重复的文件被该文件的链接替代,对于用户和应用程序来讲就像原始文件一样。SIS技术已经实施于大型企业环境,并极大的节约了重复文件占用的磁盘空间,从而最大限度地利用目前的存储资源。Single Instance Storage (SIS) 通过减少冗余数据释放更多的磁盘空间,识别相同的文件,仅仅在中心位置保存一个副本,并在SIS公共存储区域保存文件的指针而不是保存文件本身。

  数据重复删除技术如何打包?
  数据重复删除技术集成在昆腾的DXi系列设备中,在后台为现有备份流程提供支持。用户继续使用现有备份软件和策略,他们察觉不到重复删除的过程;存储的数据也因此增加了10到50倍。

  重复数据删除处理的数据种类越多,容量减少就越大。总体来看,文件级的重复数据删除虽然有效,但其检测的重复数据要少于块级或字节级的重复数据删除。同样,字节级重复数据删除在检测数据重复上比块级的重复数据删除通常更有效。

  下面例子是说明在粒度上的差别:某终端用户制作了1MB的PowerPoint演示文档,然后以邮件附件形式发给内部20个人审阅。在传统备份环境下(没有重复数据删除),虽然文件没有任何变化,但每个附件都会在每晚完全备份过程中被全部备份,耗费不必要的磁盘容量(20×1MB)。即使是小公司,考虑到磁盘物理容量、功率和冷却等情况,此冗余成本也颇为可观。

  然而,文件级重复数据删除只保存一份PowerPoint文档备份,所有其他附件(如重复的拷贝)都被“指针”替代,从而释放磁盘空间容量,并在客户需要的情况下延长保留时长。

  更多粒度的重复删除方法—块级和字节级重复数据删除技术将此流程推进了一步。这些方法查看构成新1MB文件的每个片段,与重复数据删除系统先前遇到的元素相比较,在新文件中用指针替代重复元素,而不用重新存储。


重复数据删除
 重复数据删除技术在数据保护过程中有何作用
 重复数据删除的八大评估标准
 结合重复数据删除的虚拟化容灾方案
 选择正确的重复数据删除解决方案
 利用重复数据删除技术进行灾难恢复时需要考虑的四大策略
 有关重复数据删除技术的五大误区
 重复数据删除和VMware DR结合节约成本
 如何评估基于硬件的重复数据删除产品
 重复数据删除技术如何缓解存储需求
 重复数据删除in-band VS out-of-band
 CAS和重复数据删除:归档双雄
 如何通过重复数据删除降低存储成本
 重复数据删除是如何工作的?
 压缩、重复数据删除和加密的区别
 确保重复数据删除系统的高可用性
 如何评估基于软件的重复数据删除产品
 重复数据删除技术的安全性如何?
 重复数据删除技术对备份的作用
 重复数据删除技术的实现方式分析
 技术对比:重复数据删除技术、数据压缩技术和单一实例存储技术
 专访Hifn:重复数据删除是存储发展的必然选择
 重复数据删除:能否由次级存储转移到主存储?
 重复数据删除将走进主存储系统
 专访飞康:重复数据删除更应考虑数据安全问题
 压缩技术对重复数据删除技术造成压力
 支持重复数据删除的虚拟磁带库有什么好处?
 重复数据删除技术:块级技术VS.字节级技术
 文件级和块级重复数据删除技术的优缺点
 在VTL或备份设备上运行重复数据删除对性能有影响吗

来源:昆腾公司    作者:蒋永祥    
回首2008,数据保护/数据备份见证了一些显著的趋势。企业都在关注高效,节省成本和环境可持续性。IT企业面临的问题包括……
虽然存储的售价一直都在不停的下降,但也远远赶不上公司内需要保存和备份的数据量的攀升速度。那么,是否有这样一种解决方案,它能够压缩大量的已有数据……
人们对二级存储市场的关注主要集中在磁盘备份模式中的重复数据删除技术。重复数据删除具有许多优点。你不仅可以将磁盘中的数据保留更长时间……
在VTL或备份设备上做重复数据删除怎么样?有什么性能影响吗?在性能方面有点不同的影响。基于备份的重复数据删除是你并不是减少传输到网络上的数据。
本文讨论的是数据不定期损坏的问题,并非一定会发生,即使是发生数据损坏事故的概率远低于廉价SATA的高端企业光纤信道驱动器也不能例外。

2009年对于备份来说是关键的一年。预算在减少,但是备份的数据总量却在增长。新趋势像重复数据删除使它更具有吸引力。在常见系统中,数据备份最多使用的是读写操作;通常,备份问题在影响日常操作之前,都会显现一定的征兆。因此我们总结了2008年最受欢迎的备份技巧,希望可以给大家一些帮助。

存储区域网络(SAN)和网络附属存储(NAS)在网络存储中的支柱作用毋庸置疑,但是直接附属存储(DAS)依然盛行,即使在企业中也是如此。TechTarget专家将深入DAS在企业中的应用以及在应用过程中遇到的问题。

对于整个存储解决方案来说,交换机固然是存储网络环节中极为重要的一部分,但是HBA卡也是其中不可或缺的一环,甚至可以说HBA卡性能的高低直接决定了网络的整体性能。所以什么是总机总线适配器呢,在购买时要注意什么问题呢,以及在升级的过程中该注意什么问题呢? TechTarget专家将深入给我们讲解总机总线适配器(HBA)。
最新更新
专家答疑
技巧
Randy Kerns
我有一个客户,他想把1TB左右的存储加在他们的网络上。我想用HP DL380和MSA30以及300GB的磁盘。网络中NAS和DAS的性能有什么不同呢?
Pierre Dorion
我们要购买5TB SATA存储系统,这个系统可以升级到50TB,并且可以和SATA、FATA共用。它也应该能支持多重OS和RAID级别,哪一个对于我们的需求是最好的套件呢?
Jo Maitland
SaaS存储服务会减少存储设备总数和购买的存储容量吗?近期看来没有什么显著的不同。但是从长期看,随着越来越多的服务建立在云计算上……