重复数据删除技术的安全性如何?

2008-9-10  选择字号:  | |
打印本文章

 

Larry Freeman是NetApp存储效率资深营销经理在数据存储领域具有超过25年的从业经验,Larry曾在Data General、Telex Computer Products、NEC Information Systems和Spectra Logic等公司中担任各种职务。

Larry是一位积极的演讲者和作者。目前,他在NetApp的主要职责是推广数据存储效率方面的技术,其中包括重复数据删除。Larry是SNIA重复数据删除和空间缩减技术特别兴趣小组的创始人和联合主席,他在SNIA绿色存储发起计划中也表现得相当活跃。


  除非您最近像鸵鸟一样把头埋在沙子里,否则您或许会发觉重复数据删除是个非常热门的话题。似乎您有所耳闻的每个存储供应商(还有很多您不知道的公司)都在兜售重复数据删除技术,用于降低磁盘到磁盘备份的成本。

  您或许也曾怀疑重复数据删除技术是否安全?在从已删除重复数据的备份还原数据时,您是否真的可以取回自己的数据?

  评估重复数据删除技术的相对安全性可分为两个基本部分:

  识别并消除重复数据所用的算法

  基础软硬件的可靠性

  本文中,我将根据这两条标准评估重复数据删除技术。此外,我还将讲解NetApp为增强其重复数据删除技术的可靠性所作的选择。大多数其他供应商提供的重复数据删除仅用于备份,而我们却支持用于主存储和二级存储的重复数据删除,因此我们格外注重数据安全性。

  识别重复数据

  大多数现有重复数据删除产品都是在块级操作,即用新块比较上次存储的块,以判断是否存储过相同的块。如果上次存储过相同的块,则指针将指向这个存储的块,“新”块将被丢弃。

  那么如何判断两个块是否完全相同?最常用的方法是计算每个块的指纹,即每个数据块中包含的哈希值。如果两个块有相同的指纹,则通常认为它们是相同的。

  但是,两个不同的数据块也可能具有相同的指纹或哈希值,这种可能性虽然很低,但却是存在的。我们称之为“哈希冲突”,这将导致唯一的数据块被意外删除。

  正如我们所预料,降低哈希冲突的可能性必需有更为复杂的算法,这通常会耗费更多的CPU资源来计算哈希值,并会得出较大的输出值。显然,可靠性与速度之间存在某个平衡点。此外,哈希值越长,指纹存储所需的空间也越大。

  在评估重复数据删除技术时,您必需清楚供应商识别重复数据的方式,以及所选算法带来哈希冲突的风险。很多供应商辨称磁盘故障、磁盘驱动器或磁带错误造成数据块损坏的概率要比哈希冲突的概率高。我不知道这是否只是令人宽慰的想法,但我相信绝大部分人都希望将风险降至最低。

  由于NetApp支持主存储和备份存储的重复数据删除,因此我们需要采取一种更为积极的方法来防范哈希冲突。与大多数其他公司一样,我们也采用指纹算法,但只用于识别潜在的重复数据。发生哈希冲突时,我们会首先对两个块进行逐个字节的比较,核查它们是否完全相同,然后才会决定是否废弃任何块。

  基础软硬件的可靠性

  重复数据删除技术的可靠性程度取决于基础软硬件有多可靠。事实上,尽管这一点可能不会即刻体现,但是对于实施重复数据删除,可靠性确实变得更为关键。

  例如,假设您按照比较标准的备份日程进行每晚的增量备份和每周的完整备份, 现在假设您在月初创建了一个文件,之后没有做过任何修改, 按照传统的备份方式,每周的完整备份都会产生一个副本,因此在月底这个文件将会有四个副本。如果您需要将文件还原至该点,则即使备份介质不可靠,您也可以至少恢复四个副本中的一个。

  但是如果在此情景中加入重复数据删除,月底时,您只会有该文件的一个物理副本,外加三组指向相同文件块的指针。通过这个简单的例子,您或许认识到必须确保经过重复数据删除处理的备份一直可靠地存储在弹性硬件上,并具有很好的RAID保护。在这一年中,您可能会有数百个实际上引用着大多数相同数据块的备份。

 

  图 1) 一个未更改的相同文件在四周内的完整备份。如果没有做重复数据删除,同一文件会有四个分散的副本。通过重复数据删除,您只会拥有一个副本。这样可获得大量的空间节省,但同时这个唯一副本的可靠保存也变得更为关键。

  市场上重复数据删除方面的产品多种多样。有些只有软件并可能用到多种基础硬件;有些包括软硬件(通过许可或OEM协议,从多种来源获得)。在做出决定之前,您应评估软件成熟度、基础硬件的可靠性以及两者的集成情况。

  结论

  为了保护备份的数据,重复数据删除技术必须使用合适的算法来避免废弃唯一的数据块,同时还应提供可靠的基础软硬件,以便安全地存储经过重复数据删除处理的数据,用于以后的恢复。

  由于NetApp重复数据删除技术不仅用于主数据存储,而且还用于备份数据,因此我们格外注意确保数据的可靠性。NetApp重复数据删除技术结合使用指纹和数据块逐个字节的比较,从而绝不会由于哈希冲突而误删任何唯一的数据块。经过重复数据删除处理的数据存储在NetApp存储系统中,多年的实践证明该系统采用的硬件和软件不仅可靠而且富有弹性。因此我们相信您一定能在恢复数据时取回已备份的数据。


重复数据删除
 重复数据删除技术在数据保护过程中有何作用
 重复数据删除的八大评估标准
 结合重复数据删除的虚拟化容灾方案
 选择正确的重复数据删除解决方案
 利用重复数据删除技术进行灾难恢复时需要考虑的四大策略
 有关重复数据删除技术的五大误区
 重复数据删除和VMware DR结合节约成本
 如何评估基于硬件的重复数据删除产品
 重复数据删除技术如何缓解存储需求
 重复数据删除in-band VS out-of-band
 CAS和重复数据删除:归档双雄
 如何通过重复数据删除降低存储成本
 重复数据删除是如何工作的?
 压缩、重复数据删除和加密的区别
 确保重复数据删除系统的高可用性
 如何评估基于软件的重复数据删除产品
 重复数据删除技术的安全性如何?
 重复数据删除技术对备份的作用
 重复数据删除技术的实现方式分析
 技术对比:重复数据删除技术、数据压缩技术和单一实例存储技术
 专访Hifn:重复数据删除是存储发展的必然选择
 重复数据删除:能否由次级存储转移到主存储?
 重复数据删除将走进主存储系统
 专访飞康:重复数据删除更应考虑数据安全问题
 压缩技术对重复数据删除技术造成压力

来源:NetApp    作者:Larry Freeman    
重复数据删除产品越来越受用户关注的同时,其功能作用也被一些厂商过分的放大,成为厂商推销其产品的卖点和噱头。所以,用户在选择重复数据删除产品时还需要谨慎……
提高存储高效性并不适用于主存储。没有人会把这么重要的事情搞砸,在二级存储上有很大的备份文件。通过压缩和重复数据删除技术来减少主存储……
据TechValidate的最新研究发现,最终用户所关注的对象逐渐由性能和数据压缩率转向数据完整性、可恢复性和易用性等问题……
目前,重复数据删除技术十分流行,而我们见证其成长的Lempel-Ziv (LZ)压缩技术虽然略显陈旧,却依然性能良好。
随着市场的推广,国内用户对重复数据删除技术的接受程度也得到快速提升。那么重复数据删除在实施过程中要注意哪些问题呢?
几年前持续数据保护(CDP)出现时,人们都认为这种产品能够取代传统的备份软件。当时CDP供应商预测IT管理人员都会放弃原来的备份软件,因为它们需要每周一次完全备份、每天一次增量备份……
公司要采购各种各样的设备,在采购的过程中会有很多的技巧。了解这些技巧对我们来说是非常重要的,必要时可以起到事半功倍的效果。
交换机在应用中会出现很多问题,为了在网络中能够满足更多的存储平台或主机服务器,交换机需要定期扩展或替换。交换机通过升级可以达到更好的性能,增强网络的有效性,限制网络流量并提供智能化功能,比如对网络的虚拟化。
最新更新
专家答疑
技巧
Pierre Dorion
我们要购买5TB SATA存储系统,这个系统可以升级到50TB,并且可以和SATA、FATA共用。它也应该能支持多重OS和RAID级别,哪一个对于我们的需求是最好的套件呢?
Jo Maitland
SaaS存储服务会减少存储设备总数和购买的存储容量吗?近期看来没有什么显著的不同。但是从长期看,随着越来越多的服务建立在云计算上……
Greg Schulz
我们有两个负载均衡网络服务器,都是可用的,正在尽力访问SAN上的相同的LUN。我们在操作系统和EMC SAN上用Windows2003标准版本。我们如何实现并行写入SAN……