如何通过重复数据删除降低存储成本

2008-3-12  选择字号:  | |
打印本文章
【TechTarget中国原创】随着企业的数据量不断增长,大量的重复数据给存储带来严峻的挑战。举例来说:现在有一个大小为10M的PPT文件,要把它拷贝给100个用户,这就需要Exchange服务器有1GB的可用存储空间。当每周都要备份1GB的重复存储时,问题就会变得更加糟糕。一年后,浪费的1GB空间最终会导致需要52GB的磁带备份或其他方式的备份存储。近来新兴的重复数据删除正是为解决数据冗余问题应运而生的,它只将重复的文件、块或位存储到实际的存储介质中。

  重复数据删除带来了多种好处。存储量减少,从而降低了存储成本。这意味着只需更少的磁盘和更低频率的磁盘采购。更少的数据同时也意味着备份更小。这些都将转化为较少的备份窗口占用时间和更快的恢复时间目标(RTO)。更小的备份也延长了在虚拟磁带库(VTL)或虚拟档案库的保存时间。但是要使重复删除有效,数据必须被长期保存以便可以产生一个可供重复删除使用的全面索引——只保存一周的数据对于重复删除来说是毫无意义的。

【TechTarget中国原创】随着企业的数据量不断增长,大量的重复数据给存储带来严峻的挑战。举例来说:现在有一个大小为10M的PPT文件,要把它拷贝给100个用户,这就需要Exchange服务器有1GB的可用存储空间。当每周都要备份1GB的重复存储时,问题就会变得更加糟糕。一年后,浪费的1GB空间最终会导致需要52GB的磁带备份或其他方式的备份存储。近来新兴的重复数据删除正是为解决数据冗余问题应运而生的,它只将重复的文件、块或位存储到实际的存储介质中。

  重复数据删除带来了多种好处。存储量减少,从而降低了存储成本。这意味着只需更少的磁盘和更低频率的磁盘采购。更少的数据同时也意味着备份更小。这些都将转化为较少的备份窗口占用时间和更快的恢复时间目标(RTO)。更小的备份也延长了在虚拟磁带库(VTL)或虚拟档案库的保存时间。但是要使重复删除有效,数据必须被长期保存以便可以产生一个可供重复删除使用的全面索引——只保存一周的数据对于重复删除来说是毫无意义的。

  重复删除的本质

  重复数据删除用以扫描数据中的重复内容,有时它也被称为智能压缩或单一实例存储。在最简单的层次,重复删除寻找同一文件的多种备份,不过,它只对相同的的数据进行处理,所以哪怕两个文件只有几比特数据的不同也会被其识别为两个不同的文件。如今的重复数据删除可以在更深的层次上寻找块或者位的重复实例,这使得它可以更好地节省存储空间。事实上,当数据向备份、档案文件或者复制平台转移时,只有最初的数据实例会被保存到磁盘上。随后的实例会用小标号来简单地注明并指向已经保存的重复部分。

  每一块的重复数据删除都通过“散列算法”进行处理,例如MD5或者SHA-1,有时也会将二者同时使用。散列算法会为每一个数据块产生一个特定的散列值,并将它保存在索引中。当处理另一个数据块时,其散列值将与已经编入索引中的其他散列值进行比较。如果该值已经存在于索引中,新的数据块将会进行重复删除处理,不被保存。但会插入一个指向已存在数据的“标号”。专家指出重复数据删除的压缩比能够达到10:1到50:1。

  重复数据删除的部署

  重复数据删除可以部署在硬件设备或软件产品中,而且每一种实施方式可能会有不同的实现形式,因为厂商都想在这个新兴的技术市场中与众不同。

  重复删除可以通过in-band(带内)实施,在数据写入存储时完成重复数据的删除。

  重复删除也可以通过out-of-band(带外)、作为独立或二级过程来实施。In-band处理效率较高,但处理速度可能会稍慢一些,因为额外的处理需要更多的存储时间,从而导致备份窗口占用更久的时间。Out-of-band处理不会影响系统的性能 ,但它需要略多一些的磁盘空间,并且在重复删除过程中可能引发磁盘冲突。专家建议,测试不同的重复删除方式,看这些方式是如何在你的现实环境中工作的。

  基于硬件的实施需要更多的成本,但它们的性能确实会更好一些,而且也更易于部署。硬件设备包括Data Domain公司适用于分支机构的DD410以及DDX系列的门阵列,昆腾(Quantum)公司提供的DXi3500和DXi550。在选择哪种产品时,你必须确保这台设备与现有的备份软件是兼容的,并且确保它能够支持现有的存储容量(例如:需要能处理20PB的容量)。重复删除也可以直接嵌入到存储产品中,例如:Diligent Technologies公司的ProtecTier VTL,ExaGrid Systems公司的网络附加存储(NAS)备份设备,美国NEC公司的HydraStor grid备分产品,Network Appliance(NetApp)公司的NearSore R200和FAS的存储系统,以及Sepaton公司的S2100-ES2 VTL。

  基于软件的重复删除通常工作于备份服务器(源)而不是在备份目标(存储系统)。它可以减轻备份服务器和存储系统间的网络拥堵,并且通过广域网(WAN)进行备份工作,尤其得心应手。重复删除软件包括EMC公司的Abamar产品和赛门铁克的NetBackup。基于软件的重复删除与硬件相比成本会低很多,但是对每个系统的代理使用都必须被备份——对于IT公司来说这会增加管理和维护的负担。

  在考虑部署时,可扩展性是一个主要的关注问题。随着重复数据删除系统的不断扩展,存储性能将如何相应地改变,对这一点的理解是非常重要的。例如,极其巨大的散列索引表库可能会给系统性能造成负面的影响。当然,重复删除厂商都意识到了这个问题,并开始着手解决性能扩展的问题。


重复数据删除
 重复数据删除技术在数据保护过程中有何作用
 重复数据删除的八大评估标准
 结合重复数据删除的虚拟化容灾方案
 选择正确的重复数据删除解决方案
 利用重复数据删除技术进行灾难恢复时需要考虑的四大策略
 有关重复数据删除技术的五大误区
 重复数据删除和VMware DR结合节约成本
 如何评估基于硬件的重复数据删除产品
 重复数据删除技术如何缓解存储需求
 重复数据删除in-band VS out-of-band
 CAS和重复数据删除:归档双雄
 如何通过重复数据删除降低存储成本
 重复数据删除是如何工作的?
 压缩、重复数据删除和加密的区别
 确保重复数据删除系统的高可用性
 如何评估基于软件的重复数据删除产品
 重复数据删除技术的安全性如何?
 重复数据删除技术对备份的作用
 重复数据删除技术的实现方式分析
 技术对比:重复数据删除技术、数据压缩技术和单一实例存储技术
 专访Hifn:重复数据删除是存储发展的必然选择
 重复数据删除:能否由次级存储转移到主存储?
 重复数据删除将走进主存储系统

还没有登录? 阅读全文请先登录或注册
用户名:(请填写您的E-mail做为登录账号)
  • 获取最新的IT业界资讯、市场动态、行业趋势等独家原创内容。
  • 分享国内外技术专业人士提供的技巧经验。
  • 利用专注IT的技术资源中心,不断更新专业知识。
  • 享受白皮书、Webcast等系列特色增值服务。
  • 免费参加TT中国举办的各种会员活动。
  • 更多的精彩服务,在不断开发中……
用户名:(请填写您的E-mail)
密 码:
 永久登录
请输入您的登录email:
主存储将会是重复数据删除技术的下一个前进领域,但是这却也可能成为我们在如何更好的优化存储空间这个问题上遇到的最大的分歧点……
重复数据删除是目前存储行业最热门的技术之一,不过“一俊遮百丑”,重复数据删除虽然好处很多,弱点也存在不少,只是被大家暂时忽略罢了。
NetApp公司宣布NetApp VTL系统现配备重复数据删除功能。包括EMC、HP在内的任何存储系统的使用客户,都可以将备份所需的磁盘容量减少95%……
企业越来越多的寻求支持重复数据删除的产品,重复数据删除在中国的应用情况是什么样呢?我们对SEPATON技术支持中心高级工程师杨涛进行了采访……
重复数据删除的首次真正进军的市场是备份领域。它提供了标准的磁盘到磁盘备份的一种替代选择,以让用户的数据保留更长的时间。但是重复数据删除在归档上是否有意义?
交换机在应用中会出现很多问题,为了在网络中能够满足更多的存储平台或主机服务器,交换机需要定期扩展或替换。交换机通过升级可以达到更好的性能,增强网络的有效性,限制网络流量并提供智能化功能,比如对网络的虚拟化。
磁盘阵列几乎是每个网管员必须掌握的一项技术。随着现在越来越多的厂商推出了各种磁盘阵列技术,在现在的存储应用中也越来越广泛。那么磁盘阵列技术对我们的影响有什么呢?
数据增长速度的加快、新应用需求的增加、对数据存档的监管力度的增大和业务连续性需求,正在让企业的IT预算越来越吃紧,同时也使得其传统存储架构的不足日益显露,而分层存储从某种程度上可以减缓这些压力。
最新更新
专家答疑
技巧
Pierre Dorion
我们要购买5TB SATA存储系统,这个系统可以升级到50TB,并且可以和SATA、FATA共用。它也应该能支持多重OS和RAID级别,哪一个对于我们的需求是最好的套件呢?
Jo Maitland
SaaS存储服务会减少存储设备总数和购买的存储容量吗?近期看来没有什么显著的不同。但是从长期看,随着越来越多的服务建立在云计算上……
Greg Schulz
我们有两个负载均衡网络服务器,都是可用的,正在尽力访问SAN上的相同的LUN。我们在操作系统和EMC SAN上用Windows2003标准版本。我们如何实现并行写入SAN……