重复数据删除技术如何缓解存储需求

日期: 2008-03-19 作者:Stephen J. Bigelow翻译:陈晶 来源:TechTarget中国 英文

本文将介绍重复数据删除技术的基本原则和具体实现等相关问题,并列举一些重复数据删除技术在实际应用中的例子。数据如潮水般涌向企业。存储管理员不断努力地处理日益激增的数据,比如,文本、声频、视频、图像,还有不断增加的大容量邮件附件。存储这些数据并不是最佳的解决方案——存储需要投入成本,大量的文件最终将会加重企业数据备份以及灾难恢复系统(DR)的负担。

企业与其寻求更多的存储数据的不同方式,还不如转向数据删除技术,以存储更少的数据。近来新兴的重复数据删除(Data De-duplication)就是数据删减方案的重要一环。   了解重复数据删除   基本而言,重复数据删除就是减小存储空间的一种方式。它通……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

本文将介绍重复数据删除技术的基本原则和具体实现等相关问题,并列举一些重复数据删除技术在实际应用中的例子。数据如潮水般涌向企业。存储管理员不断努力地处理日益激增的数据,比如,文本、声频、视频、图像,还有不断增加的大容量邮件附件。存储这些数据并不是最佳的解决方案——存储需要投入成本,大量的文件最终将会加重企业数据备份以及灾难恢复系统(DR)的负担。企业与其寻求更多的存储数据的不同方式,还不如转向数据删除技术,以存储更少的数据。近来新兴的重复数据删除(Data De-duplication)就是数据删减方案的重要一环。

  了解重复数据删除

  基本而言,重复数据删除就是减小存储空间的一种方式。它通过删除冗余数据,确保只将单一的数据实例保存在存储介质中,比如,磁盘或磁带。删除的冗余数据将被一个指针替而代之,指向保存的单一数据。有时候重复数据删除也被称为智能数据压缩或者单一实例存储,通常是和其他的数据删减技术一起使用的。传统的压缩方式已经使用了将近三十年,它将数学算法应用到数据,以简化大容量或重复的文件——有效地将文件压缩变小。与此相似的是,差分delta减小存储总量是通过比较重复的新旧文件,只存储修改过的数据。将二者合二为一,就能非常有效地优化存储空间的使用。

  如果施行恰当,重复数据删除可以降低对存储空间的大量需求,从而减少在磁盘上的花费。更有效地利用磁盘空间,就能够延长磁盘保存期限,这样,提供了更好的恢复时间目标(RTO),更长的备份时间,并降低了磁带备份的需求。同时,重复数据删除还可以缩减必须通过无线网络传送来实现远程备份、复制和灾难恢复的数据。

  重复数据删除主要是基于文件、块甚至是位进行操作的。相对而言,文件的重复删除较易于理解——如果两个文件完全相同,其中的一个文件备份将被保存,而随后与之重复的文件将获取指向保存文件的指针。不过,文件重复删除并不最有效,因为哪怕文件只更改了一个字节,也会被作为另外一个不同的文件全部保存下来。基于块和位的重复删除通过对文件进行比较,只保存每一块的单一重复部份。如果文件更新,那么只有更改的数据才会被保存。这样,基于块和位的重复删除可以发挥更为有效的作用。GlassHouse Technologies公司主管数据保护的副总裁W. Curtis Preston说,“在典型的存储环境中,它(块重复删除)所节省的存储空间带来了巨大的差异”。其他的分析家指出重复删除技术的压缩比能够达到10:1到50:1。不过,基于块和位的重复删除增加消耗,并且需要建立一个更大的索引库去追踪独立的块。

  重复数据删除平台必须解决“散列冲突”(hash collisions)的问题。每一个数据块通过散列算法(例如MD5或者SHA-1),为每一个数据产生一个特定的散列值。然后,将这个散列值与现有的散列值索引进行比较。如果它已经存在于索引中,,那么这个数据就是重复的,不需要进行存储。否则,这个新的散列值将被添加到索引中,这个新的数据也因此被存储。一般而言,散列算法很少会将两个不同的数据块产生出相同的值。当这样的“散列冲突”发生时,系统就不会存储新的数据,因为系统看到同一个散列值已经存在。这被称为“false positive”(错误的确定),会导致数据丢失。一些厂商结合不同的散列算法,以降低散列冲突的可能性。另一些厂商还会检查元数据来确认数据,避免散列冲突。

  实施重复数据删除

  一般情况下,重复数据删除过程是在实际存储系统的硬件中施行的,不过也可以在备份软件中应用。基于硬件的施行往往更容易部署,主要是针对设备或存储系统的磁盘层面缩减存储空间。基于软件的施行也可以缩减数据,但这种缩减是在备份服务器上完成的。这使备份服务器和备份系统之间的带宽最小化,如果是远程的备份系统,效果其佳。Enterprise Strategy Group的分析师Lauren Whitehouse说:“当重复数据删除工作在数据源时-使得更少的数据在广域网、局域网和SAN之间传输,这可以使用户得到‘端对端’的便利”。然而,在一个新的备份应用中部署重复数据删除会使系统受到更多的干扰,因为除了要安装新的备份引擎外,还要在必须备份的系统中安装一个轻型的代理。

  如何部署重复数据删除还没有一个普遍的方法,由于环境和选择的产品不同,你得到的结果也不同。必须注意的是,只有在涉及到长期保留,通常用于备份和归档工作时,重复数据删除技术才有作用。短期的保留是毫无意义的,因为几乎没有重复的信息可以被删除。Preston警告说重复数据删除厂商不应误导用户,他建议应该着重于产品的性能、容量和成本等关键性问题上。根据你特定的环境,可以找出潜在的性能和压缩问题。他说:“比如说如果你正在备份地震资料或者医学影像资料-这些数据可能很少存有重复。”通过不同的备份和恢复方式,对重复数据删除平台进行相应的测试,就可以知道在现实环境中重复数据删除是否有效。

  可扩展性是另一个令人关注的问题,特别随着重复数据删除不断增长性能方面的扩展。随着之前的散列索引库逐渐变大,查询每一个块需要更多的时间时,性能的扩展可能成为一个问题,不过Preston称之为FUD(弄糟数据)市场手段。他说,“我所注意到的所有厂商,目前或多或少都正在解决或将解决这个扩展性问题。”不过,他仍然建议客户自己必须就这一问题与重复数据删除技术的销售商商讨,看看是否能解决关注的扩展性问题。

  从管理的角度来看,重复数据删除应该不会造成明显的额外支出。“管理应该和一个标准的VTL[虚拟磁盘库]旗鼓相当”。但如果需要安装多个重复数据删除设备,可能管理方面的支出会相应增加。

  重复数据删除的影响

  阿巴拉契亚和沿海地区的南卡罗来纳州的美丽景点吸引了旅游业和本地商业的发展。广告、通信和宣传册已经新兴为主管公园、娱乐和旅游部门的重要资产。该部门由一家代理公司负责促进旅游业的发展并维护一个贯通全州的、全面的公园系统。该公司原来使用EMC的SAN(存储区域网络),总容量为4TB,其中的1.2TB的容量用于数据库和文件的实际工作数据集,2TB在采用DLT技术之前用于磁盘的备份。像许多IT公司或其他机构一样,该公司寻求多种方法想减轻其日益增加的存储介质和其他数据的要求。

  在比较若干重复数据删除厂商后,该公司最终选择了Data Domain公司的430产品担任磁盘备份的任务。430产品将原来SAN网络中放置一旁的2TB取而代之为2TB的板载存储。这种基于位的重复数据删除节省出了巨大的存储空间。该公司的系统管理员兼安全员Bernie Robichau说:“经过压缩和重复删除之后,我们大约只使用了900MB的磁盘空间。”节省的空间大大节约了成本,而且也延长了备份在磁盘上的保留时间。“以前,如果有人需要一个两周前的文件,我们很难从基于磁盘的备份中提供该文件,因为,我们无法在分配容量为2TB的硬驱动器(SAN)上保存两组备份。”Robichau说,“但现在,如果有人需要三周前或六周前的某个文件,即刻可取”。

  Robichau说,相对而言,重复数据删除平台的安装快捷和简易,仅需要四小时左右的时间就可以完成现场安装和基本的调试工作。公司目前使用的CommVault System公司的备份基础架构证明完全兼容----备份代理仅仅指向新的设备,而不是指向EMC SAN网络。他说,“备份工作和以前没有两样,但和以前相比,我们占用的磁盘空间更少,备份保留时间更长。” Robichau指出,虽说重复删除设备几乎可以不需要管理时间,但至少可以减少高达75%的磁带管理工作量,比如磁带的更换、清洗和存储。现在仅剩的磁带维护工作就是:在周末进行全面备份并系统地将磁带保存到指定的地点。

  目前还没有升级430产品存储设备的迫切计划,主要精力更多地集中在灾难恢复上。先前考虑的灾难恢复计划由于其复杂性被暂时搁置。但是,430产品很容易实现复制,所以,Robichau希望在下个财年或以后,将430产品复制到另一个完全一样的设备,彻底淘汰备份磁带。“除了相同设备现场同步处理,并安放在远程地点之外,我们暂时还没有其他计划。”

  总部设在丹佛的主机提供商的Data393 有限责任公司正被庞大的客户数据所淹没。它面临的挑战是:在保障数据保护业务的正常运行同时,必须保障其他服务的正常工作,例如主服务器的维护,防火墙的维护以及载荷的平衡。但是,它的备份环境面临的挑战更为严峻:平均每个月要生成20,000个备份,每个客户的保护数据从20G到100G不等。即使拥有4.5TB的保护存储空间,Data393公司也只能维持大约两周的保存期。事情更棘手的是,公司的StorageTek L700和 L11000磁带库交由外包商管理,这需要在Data393公司额外配备一名全职工程师。

  但是,真正迫使Data393公司采取行动的是不断持续的恢复问题。高级系统工程师Steve Merkel说,“我们的备份成功率最低达到70%左右……但是,经常出现的问题是,我们无法在客户想要的当天提供备份。”磁带备份过程的不良性能也困扰着组织,备份窗口占用时间往往超过18个小时。这些问题最终只能转化到增加客户的支持成本上来。显而易见,对于Merkel来说,磁盘存储是达到可靠性和提升性能的关键,而重复数据删除是节省存储空间以便能充分满足客户备份需要的重要手段。

  Data393公司选择了Avamar Technologies公司提供的 Axion 软件,运行在由11台Dell 2850s组成的工作组上,一共可以提供大约10TB的存储空间。实际的部署要求系统升级,但Merkel说,在完成近400台服务器上的代理安装和所需的数据迁移之后的短短数日内,该系统就上线并投入运行。这个向重复数据删除的转变带来了许多显著的效益。最为重要的是满足了节省磁盘空间的要求。例如,在没有重复删除的情况下,无论是完全还是增量备份,需要消耗350GB的空间保护客户100G的信息。在重复数据删除的帮助下,实际所需的存储容量要小于保护客户数据的容量。“我们使用7TB左右的空间就可以保护客户大约8TB左右的数据,”Merkel说,“而且[在每日完整备份的前提下]可以包括从两周到一年之内的任意时间段的保存期。”备份时间也缩短了,在有的情况下,以前需要占用18个小时的备份窗口可以减少到一个半小时之内,同时还可以将备份和恢复的成功率提高至98%或更高。以前两名全职工程师的需要量降低75%,只需要一名全职工程师的一半。

  如今,通过重复数据删除,4.5TB的保护数据已经扩展到7.6TB左右。其中保护数据中的约2TB复制到位于圣路易斯的容灾点一个较小的Avamar系统。Data393公司继续使用磁带作为长期的存档备份。Merkel预计,保护数据的量在可见的将来会翻番,但随之增长的存储需求却会减少。

  重复数据删除技术的未来

  在短期内,业界的专家认为重复数据删除技术在灾难恢复中将扮演重要角色。通过复制重复删除平台的数据到另一个远程站点来节省磁盘的存储空间。这减轻了来来回回移动磁带的需要,尤其是在复制兆兆级的数据时,这一点就显得更有意义了。

  其他的分析师指出,在像VTL的“点产品”解决的是备份窗口所面临的问题,而重复数据删除则是解决存储容量的问题。“下一代的备份方案将对二者进行改进,” Lauren Whitehouse说,“既能够删除来源于备份目标的数据,又能够提高通过LAN/WAN到中央磁盘仓库的数据传输效率。”现在,重复数据删除技术已经广泛应用于VTL,并将作为一主要特征出现在传统的备份产品中。

作者

Stephen J. Bigelow
Stephen J. Bigelow

数据中心和虚拟化网站的高级技术编辑,拥有20年的PC和技术写作经验。

翻译

陈晶
陈晶

相关推荐

  • 简单可靠的平面备份技术

    在过去,很少有人认为平面数据备份可以成为传统备份方式的靠谱的替代者。而到了现在,随着快照技术的不断增强,趋势正在改变。

  • 专家答疑:重复数据删除在云中是如何工作的?

    重复数据删除过程减少了存储系统中的数据量,但云中的重复数据删除可能比客户对云提供者更有价值。

  • 全闪数据中心的数据缩减攻略

    全闪存数据中心的概念之所以很吸引人,是因为它可以消除耗时的系统调优。它使数据中心得以支持最大的虚拟机密度,它的存储响应时间让大多数应用程序提供者都感到满意。

  • 存储采购并非易事

    硬盘市场的下滑并没有带来相应的固态存储市场的蓬勃发展,但固态存储将最终取代机械硬盘,在这一路上也会不断有惊喜。