重复数据删除的应用关键

日期: 2008-02-20 作者:王刚 来源:TechTarget中国

  主持人:实际上我们也看到了前事处理和后事处理对备份性能都有影响,这两个技术各有好处和坏处,网友比较关心重复数据删除使用的安全性问题,还有就是它的压缩比率可以达到多少?从您的角度来看,您觉得用户如果应用重复数据删除应该怎么样评估这个应用效果呢?


  王刚:首要的是安全性问题,很多用户在实际选购这些产品的时候,包括虚拟带库,或者说带有重复数据删除这些产品过程当中,他们经常问的问题安全性,本来我在做备份的时候会有多个备份级,如果有一次丢了的话,还有一次备份,但是重复数据删除就不是这样,它只有变化的唯一的数据块才存到阵列上去,而且跟它对应的还有一些索引指针,不光是索引指针,还是唯一的数据块这个词,对于我们来讲的话,我们都在RAID阵列上,所以我们不管是普通的VTL,还是单个备份级,还是多个备份级,如果是底层的针坏了的话,这个数据还是丢了,因为写数据的时候,并不是把这一个备份级放在这块硬盘上,把那些备份级放在那块硬盘上,它是基于RAID组的条带模式,所以一旦出现问题的话,不管几个备份级,数据都会丢,所以不用担心数据块在VTL上的安全问题,它是由RAID阵列的安全保护机制来工作。这样来讲的话,实际上RAID阵列的工作模式是很成熟的,所以如果真担心RAID“罢工”的话,那么这个会有安全的补充和保护,我们一会儿有机会也可以交流一下,物理带库和虚拟带库之间的互补和沟通。


  那么除了安全的问题,还有一个问题,就是很多的用户和工程师担心,这个产品和技术在宣称,有的是300比1,有的是20比1,有的是50比1,或者是10比1,那么影响重复数据删除效果的一些因素,或者说到底有哪些,或者用户到底应该怎么考虑呢,实际上一个从技术,一个从习惯上考虑,什么叫技术呢?我能做到300比1,或者是20比1,比如说基于数据块,这种重复数据删除技术,那么它是颗粒度越细,它重复数据删除的效率越高,那么如果基于文件级呢,这个文件哪怕被用户动过两个字节,哪怕改过一个字,那么这两个就是不同的文件了,那么这个存的时候要存两份不同文件的,如果基于数据块进行切割,进行扫描,进行存储,重复数据删除技术来讲,它只存储修改过的几个字节,所以这是影响他的因素。也就是说重复数据删除采取的技术不一样,影响用户使用时候的效率,还有一个更多的是习惯问题,什么是习惯问题呢?


  重复数据删除在用的时候,比如说举一个简单例子,用户有100GB的数据,这数据可能是视频问题,大家知道视频问题是经过很高的压缩以后,已经是压缩过的文件,那这个文件如果在使用重复数据删除这个VTL,或者其他一些模式在进行备份,或者是存储的过程之中,并不是说对它进行压缩,所以我刚才讲过了,影响他的因素是不要把它和压缩考虑在一起,很多人问的时候,说我这个数据已经是压缩过的,这个重复数据删除是不是对它还有没有用呢?它和压缩是不一样的,它会把你这个文件进行切割,切割以后比对不同的数据块,切割的时候它并不考虑你这个数据文件是压缩过的,还是没压缩过的,它只是把这个切割出函数得出一个唯一值,所以很容易理解,影响重复数据删除的效果,最主要的就是用户使用的备份策略。


  比如说你今天做一次全备,过两天又做一次,一周要做三次,这时候大量的数据就是重复的,这时候对于重复数据删除设备来讲,它的重复数据删除的比率就上去了,也就是用户备份策略的使用习惯,决定了重复数据删除这个效率,但是前提是这个重复数据删除的技术采用的是基于文件级别,还是基于可变长的Blog级别。这是要考虑的因素,如果没有重复数据删除这个功能,普通的VTL在备份一周做三次全备的时候,每次是100G,三次就400多G,所以如果这部分文件保留期限是三个月,每一个月做4次全备,那就是10万次,我想它的重复比不会低于15比1,所以有些产品宣称的是20比1,有些是300比1,这要看怎么用,这并不是和技术有多先进有关系。


  主持人:因为现在有很多企业部署重复数据删除技术,昆腾从不能从自身的角度,为用户做一些建议,在选择重复数据删除的时候需要注意哪些问题?


  王刚:这个很有必要的,我觉得。因为重复数据删除是最近兴起的一个技术,尤其是国内企业在使用最新技术的时候,实际上还是要胆子大,同时还要考虑调研的详细一些。影响这些因素实际上最简单的一点就是第一产品有没有先进程度,这个先进程度实际上并不是说你这个大厂出来的就一定是先进,或者小厂的产品就一定不合格。考虑这些因素的时候我觉得有一些关键因素还要考虑得到,第一就是这个产品是不是这个厂家本身确实掌握比较好的产品,或者说这个产品是OEM别的技术的,但是OEM的时候,自己厂家的人是不是搞清楚了,或者在使用过程中维护方面能不能有能力做到,这是一个方面的问题。


  还有一个方面问题就是使用这些产品的时候,那么它的维护性,它的可靠性,还有一个就是易用性,实际上对我们这些产品,对我们这些国内的用户来讲的话,易用性还是比较关键的。一个产品具有很高的技术价值,还有一个就是他的性能很先进,但是如果到现场的时候,你一会儿要敲一些命令,一会儿又说增加补丁,还有就是HBA卡,或者是其他一些模式的模块不匹配,那么这样对用户来讲用起来就很难受,还有就是远程管理的模式,这些都要考虑。当然对于国内用户选取这些产品的过程之中,实际上要参考一些有些产品的成功案例,因为如果有成功案例的话,对用户来讲始终是明显能见到的一些模板。因为在新技术投入大批量成功使用之前,我们能见到的大部分都是一些白皮书上见到的,或者是用品的产品彩页上的,那么真正成熟度是多少,它用的时候方不方便,是不是和他们宣传的是一样的,这些东西一般来讲是跟成功案例,或者说沟通一下,或者说我们在用的时候跟相关供应商的技术顾问反复沟通是有必要的,也就是说用这些产品的时候,并不是一拍脑袋就用的。实际上就是看总体的解决模式。


  主持人:有没有这种情况,比如说用户可能采购了一个VTL产品,可能是某一个厂商的,他可能会单独采购一个备份软件,是不是可以这样考虑,重复数据删除需不需要与用户原有的备份环境,或者是它打算采用这个备份环境做比较好的融合?


  王刚:有这个说法,如果用户已经有备份环境的话,那么如果在选用重复数据删除,或者选取重复数据删除这个技术的时候,你如果选取软件品牌的话,什么叫软件产品呢,这个重复数据删除是发生在用户服务器上的,这时候一定要慎重,什么意思呢,就是你这个软件,因为从重复数据删除是最近几年才起来的,也就说以前用的软件允不允许升级,能不能满足重复数据删除的要求,如果这些都满足的话,还有一点就是本身这些服务器我多大的负载空间和能力,来叫给重复数据删除用,这些问题比如说一张纸上的一些问题,都没有问题了,就大胆的选用这些基于软件的重复数据删除产品。


  那反过来讲,用户新建设备份环境,或者以前已经存在的备份环境,那么现在有需求想上VTL,或者是带有重复数据删除的VTL,那么这个时候对于硬件产品,我这里讲的是对硬件产品来讲是透明的,什么是透明呢,它给用户的一个工作界面,这实际上就是一台真正的物理带库,什么意思呢,备份软件识别这种VTL的时候,跟识别真正的物理带库道理是一样的,这是一个硬件的解决方案,硬件解决方案我们看一下各厂家的匹配列表就发现,它一些备份软件会时时更新,以前只有物理带库,现在会支持说昆腾的,或者说HDS之类的,这种具有重复数据删除的VTL,所以说如果挑选硬件的时候大家可以看一下匹配列表,如果挑选软件的时候就要看当前的备份软件和这个VTL的软件之间的匹配关系,是不是必须说当前这个VTL上的备份软件一定要换成人家支持的软件,或者说一定要换成人家支持的平台,这都是很关键的,也就是说挑选软件比挑选硬件要复杂一些。


  主持人:您刚才也谈到了在选购重复数据删除的时候,其实成功案例是比较有参考价值的,您能介绍一下昆腾现在有哪些国内的成功案例吗?


  王刚:成功案例来讲的话,昆腾在国内的成功案例比如像安踏国际,它是做运动鞋的,它的数据量一开始不是很大,他们在用原来低端物理带库的时候,经常会卡带,工作不正常等等,那么他们就想有没有一种产品,它的容量又比较大及它能比较适合备份策略,维护起来比较简单,我们在安踏国际就是用3500这个型号的,这样比较好的解决了他们的问题,我们还为电厂做了,他们目前的应用模式实际上来讲还是比较在中低端的,它们的数据安全性,或者是可靠性,或者是对性能的要求,没有像银行,移动通信,电信行业要求高。那么重复数据删除我想接下来的发展模式和历程一定会用在高端用户上。这个技术再经过一年左右的推广和发展的话,高端用户的需求和应用会越来越多。


  主持人:按照你的理解,在高端的大型企业和一些中小企业,在应用特点上有什么不一样吗?


  王刚:有,这个不一样的地方应该是比较大的。像中小企业在应用重复数据删除这个产品的时候,它首先是考虑到这个产品的接口丰不丰富,什么意思呢,就是说中小型企业不一定配有PBI卡,中小型企业不一定备份软件就买的是最新的,或者是最高档的,中小型企业可能连备份软件都没有,所以这时候这个重复数据删除的接口能不能让用户感觉很丰富,什么意思呢,就是你想用VTL的话,我有VTL接口,你想用什么就有什么接口,所以这样用户在软件选择上非常丰富,所以这样就优化了用户投资的性价比,这是比较关键的因素。


  还有一个因素就是中小型企业IT维护能力,始终和大型企业不一样,它们可能就是一些应用业务部门的人员兼职在IT部门,所以这些产品在中小型企业用的时候,要考虑可靠性,什么是可靠性呢,就是这个产品投入到中小型企业的时候会不会三天两头出问题,第二个就是用户用起来简不简单,要不要敲一堆命令,要不要一些很复杂的配制,是不是通过一些简单的浏览器界面就可以直接做好,还有就是用带有重复数据删除产品的时候,是不是还要对这上面的RAID阵列进行特别的设置,是不是还要装一些特殊的软件,所以说中小型企业在选用具有重复数据删除的产品的时候,一个是这个产品是不是说通过一些web界面,只要有浏览器的地方就可以查看等等,还有就是接口丰不丰富,我想这是中小型企业考虑的。


  那么大型企业呢,一般来讲首先要满足性能,也就是这个带宽足不足,备份带宽足不足,不要因为带有重复数据删除功能之后会带来很大的影响,这些都满足之后,就要看这个设备的冗余可靠性怎么样。不要因为使用了重复数据删除之后,这个冗余质量下来了,所以大型企业在选购重复数据删除产品的时候,技术一定是很关键的,但是一定要满足原先对VTL的要求,一个是速度方面,还有一个就是可靠性方面,这是一个比较重要的原因。


  所以两种不同的企业,或者不同类型的企业,在选这些产品的时候出发点不一样,所以在国内目前这些厂家,或者VTL厂家之内,能不能提供真正企业级的,为用户使用的,具有重复数据删除的VTL,是比较关键的一个因素。并不是说企业级在应用的时候把这个适合中小型企业的VTL通过串联,通过堆叠就拿去给大型企业用,这是不合适的。


  比如说中小型企业要40个T,那么大型企业要80个T,那你把几个不同的VTL堆叠在一起提供给他们,这肯定是不行的,因为但点故障率太高,风险也太高。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐

  • 简单可靠的平面备份技术

    在过去,很少有人认为平面数据备份可以成为传统备份方式的靠谱的替代者。而到了现在,随着快照技术的不断增强,趋势正在改变。

  • 专家答疑:重复数据删除在云中是如何工作的?

    重复数据删除过程减少了存储系统中的数据量,但云中的重复数据删除可能比客户对云提供者更有价值。

  • “新”昆腾发布Xcellis工作流存储

    近日,“新”昆腾依托其StorNext横向扩展存储平台及其行业领先的流性能技术推出一款融合度更高,可以应对严苛工作流的新产品——昆腾Xcellis工作流存储。

  • 全闪数据中心的数据缩减攻略

    全闪存数据中心的概念之所以很吸引人,是因为它可以消除耗时的系统调优。它使数据中心得以支持最大的虚拟机密度,它的存储响应时间让大多数应用程序提供者都感到满意。