100年归档 您准备好了吗?

2008-8-26  选择字号:  | |
打印本文章

GaryNetApp 的全球实践总监。担任SNIA长期归档和法规遵从存储计划 (LTACSI) 的主席。他还是业务应用程序和数据库集成方面的 NetApp 全球实践开发的领导者。在 2006 年加入NetApp之前,Gary担任过领先存储供应商的多种职位,主攻 ILM 解决方案的开发和咨询实践。2001 年,Gary工作的团队在开发可视化历史数字归档领域进入决赛争夺著名的计算机世界奖 (Computerworld Smithsonian Award)。

  拿起100年前的书,您也许可以毫不费力地进行阅读,但读取哪怕只是10年或20 年前的备份磁带,可能要困难得多。即使具有正确的硬件来读取磁带(且磁带本身仍然完好),您还是需要知道磁带的写入格式,且需要可以识别此数据的应用程序。情况可能会非常复杂,且随着时间的推移只会变得更麻烦。此时您也许会想:“没什么,我不需要将数据保存那么久。”请再考虑一下吧。

  2007年,存储网络工业协会 (SNIA) 完成了一项全面调查,在该调查中我们采访了来自世界各国各种组织的数百人。令人惊讶的是,80%的人说他们的信息必须保存50年以上,68%的人说他们的数据必须保存 100年以上。足足70% 的人还报告他们对阅读50年内所保留信息的感知能力很不满意。他们最关心什么类型的数据?电子邮件、客户记录、企业应用程序数据及数据库 — 我们大多数人每天处理的信息类型。还想再关注吗?


图 1) 数据保留要求。来源:SNIA 调查

  在本文中,我将解释长期归档面临的挑战,讨论您现在可以使用的一些最佳实践,以及通过我担任主席的SNIA长期归档和法规遵从存储计划 (LTACSI) 谈谈正在进行的工作。

  长期归档面临的挑战是什么?

图 2) 存储系统、应用程序及物理介质与信息保留的典型周期对比。

  简而言之,我们需要保留信息的时间(即使使用相对保守的 50 年图)远远超过存储系统(磁盘或磁带)和应用程序的典型生命周期。甚至保留期还要很久才过期,物理介质就开始退化,变得无法读取。

  当前的实践是每隔3至5年迁移数据(同时在物理上和逻辑上)。物理迁移需要将信息从一个物理存储系统移到另一个系统,或从一种介质格式移到另一种格式以维持物理可读性、可访问性和完整性。这种类型的迁移的推动因素包括介质故障、介质或存储系统过时、系统更改及运作成本(人员、电力、空间)。

  逻辑迁移需要将信息从一种逻辑格式移到另一种格式(如从应用程序的旧版本移到新版本),以保持可读性和可解释性。推动因素可能包括更改应用程序格式、过时的应用程序及合并。这两种迁移类型的障碍因素包括成本、复杂性、巨大的信息量以及时间和/或预算的不足。

  上述 SNIA 调查表明,逻辑和物理迁移不能有效地规模化成本来满足当前和未来的需要。事实上,只有 30% 的被调查者每隔3到5年迁移磁盘上的数据。显然,需要使用新的方法来满足长期数字信息保留的法律、法规、业务、成本及可扩展性要求。

  过渡解决方案

  由当前存储系统和应用程序引起的限制近期不会消除。那么,现在您应采取什么措施来解决长期保留问题?当前最佳的建议是,针对您的应用程序、操作及数据存储库实施正式生命周期管理流程,以在使用寿命中解决数据管理的效率问题。最佳实践应包括:

  • 所有相关人员 (IT、RIM、法律、业务、安全性) 密切协作,以确保解决所有需要
  • 清晰地标识现有的所有资产和资源
  • 将信息分类,以便确定保留需求
  • 制定保留、保护、安全性、法规遵从等等的要求
  • 满足要求的服务实施
  • 测评和改进

  有用的实践可能包括:

  • 按一些常用存储段将信息分类
  • 设置保留期限及删除过期的数据
  • 控制您针对数据保护维持的数据副本数
  • 设置审计策略并加以执行
  • 使用基于标准的存储平台

  长期保存策略应确定业务、法律及法规遵从目标,且包括每个存储库遵守的最佳实践说明(包括物理和逻辑迁移)。物理迁移的目标应从固定期限(3 到 5 年)迁移到“所需的”策略。联合的、基于标准的虚拟化系统(如运行Data ONTAP GX的NetApp存储系统)有助于最大限度地减少迁移所涉及的中断、复杂性和人工。

  对于逻辑迁移,您必须能维持真实性,即保证数据完好如初。此外,您应仅根据需要迁移,在保留某些数据时可能要考虑其它方法:将数据转换为标准格式 (XML、PDF等),将硬件归档(若适用)或使用缩微胶片。

  这似乎很复杂。虽然您必须按需执行物理和逻辑迁移,且这两种操作不能同时进行, 但目前几乎没有办法可确保保留的数据长期保持可读性。幸运的是,可以执行一些重要的工作来帮助解决这种情况。

  标准工作

  显然,迄今为止,存储行业还无法解决长期数据保留的问题。目前的归档应用程序所使用的专有数据格式会明显地将 您限定在解决方案中,将来可能会使迁移工作更加复杂。所有这一切即将改变。

  对于长期归档(15 年以上),最大的挑战是逻辑迁移。与专有存储格式相反,使用有效的生命周期管理流程和当前基于标准的存储技术足以解决物理迁移情况。此情况应该会得到进一步改善,因为供应商开始将注意力更加集中在可满足长期存储需求的硬件上。(见侧栏的示例:协作研究长期归档。)

  另一方面,逻辑迁移保持了应用程序的特定性,自动化主要流程变得更困难。完整“保存”不仅需要保持数据的可读性和可解释性,还需要使用元数据长期保留数 据,元数据包括起源、参考信息(上下文)及确保完整性和真实性的机制。

  为此,SNIA LTACSI 建议SNIA成立长期数字信息保留和保存技术工作组来研究封装(见侧栏)。封装定义由内容(数据)及关联的保存元数据组成的“面向保存的”逻辑容器。可以在 OAIS AIP(归档信息包)上模拟封装。图 2 显示了 OAIS AIP 容器的内容。

图 3) OAIS AIP 包括要存储的信息内容和描述该内容的元数据。(来源:SNIA)

  封装意味着“自包含”,因为容器包含信息的数据、元数据、参考信息、完整性和真实性检查、访问控制及日志。此内容使容器更便携且独立于存储设备。它可根据您为信息制定的要求,独立于应用程序来管理容器。封 装是“自描述的”,因为容器可以由不同类型的系统进行解释,且可以包括阅读器,从而独立于应用程序解释内容。对于长期保存,此功能非常重要。

  封装提供了任何应用程序可以理解的标准格式,而且在理论上可让许多应用程序类型访问归档的内容,如 ECM、法律、迁移、保存等等。


图 4) 在逻辑上,封装会创建适应于位层(物理介质)和应用程序之间的标准数据层。(来源:SNIA)

  目标是消除对频繁的逻辑迁移的需要,以便组织在经过长时间后根据需要继续访问和使用归档数据,消除了因定期更新数据以适应应用程序更改而导致的开销和复杂性。

  NetApp和长期归档

  从硬件角度来看,NetApp长期以来就认识到,物理数据迁移(无论用于归档还是其他目的)很复杂且容易中断。因此,NetApp正朝支持分层存储的扩展硬件体系结构的方向发展(包括满足法规遵从需求的一次写入,多次读取 (WORM) 卷),从而以不中断的方式减少数据从一个层到另一个层的迁移。除现有的存储设备以外,此体系结构还允许透明地合并新的存储构建块(物理介质、存储控制 器),极大地简化了物理迁移流程。

  为满足归档和法规遵从要求,NetApp open SnapLock技术可在 NetApp 存储设备上创建WORM卷来满足公司管理和法规要求,而无需单独的物理存储系统。NetApp 与业界领先的归档合作伙伴(如 Symantec、Zantaz 和 CommVault)通力合作,提供可利用NetApp硬件和软件技术的独特功能的解决方案。NetApp还与这些合作伙伴合作研究长期解决方案。

  从逻辑迁移的角度而言,NetApp深知解决近期归档问题只是解决方案的一部分。我们很早就认识到需要行业标准,且对标准化工作作出了重要贡献。我在NetApp的职责中,其中一个主要职责是担任 LTACSI 的主席,与对解决长期数字信息保留、归档及法规遵从相关的存储实践感兴趣的最终用户、IT 专业人士、供应商、集成商及服务提供商通力合作。

  您现在应该做什么?

  最重要的事是立即采取措施,避免陷入将 TB 数据需要物理和/或逻辑迁移的危机中。最好的方法是遵循“过渡解决方案”中所述的准则,包括尽可能地使用开放式标准。开放式标准可在开始迁移时为您提供更多选择,有助于防止受制约。

  如果您的组织尚未进行这些操作,请考虑实施数据分类以更好地了解数据及支持生命周期管理。然后,寻找可执行策略及简化物理迁移流程的解决方案(硬件和软件)。现在采取这些措施后,在未来几年制定了新的长期归档标准时,您将可以很好地利用这些标准。


十个应该考虑的归档问题
 十个应该考虑的归档问题
 五个应该考虑的归档问题
 归档产品推荐
 管理员可以选择归档电子邮件信息吗?
 电子邮件归档实施需要注意的事项
 如何正确利用电子邮件归档满足诉讼要求
 电子邮件归档与管理系统分类
 选择归档系统的四个原则
 购买电子邮件归档产品的关键
 什么是邮箱限额(quotas)和电子邮件归档的区别
 100年归档 您准备好了吗?

作者:Gary Zasman    
由于数据量急速增长,许多公司需要电子发现工具来返回优化后的相关检索结果。人工搜索大量的原始数据会拖延发现过程并有可能带来差劲的搜索结果……
重复数据删除的首次真正进军的市场是备份领域。它提供了标准的磁盘到磁盘备份的一种替代选择,以让用户的数据保留更长的时间。但是重复数据删除在归档上是否有意义?
萨班斯法案并没有明确地提出对业务连续性的要求。事实上,它根本就没有提到业务连续性。但是作为一个实际的问题,业务连续性被看作在企业内部建立全面控制环境的一个方法。
分层存储使其更具有经济上的吸引力:重复数据删除技术。服务供应商趁机为分层存储和重复数据删除提供一系列服务。
拿起100年前的书,您也许可以毫不费力地进行阅读,但读取哪怕只是10年或20 年前的备份磁带,可能要困难得多。即使具有正确的硬件来读取磁带……
几年前持续数据保护(CDP)出现时,人们都认为这种产品能够取代传统的备份软件。当时CDP供应商预测IT管理人员都会放弃原来的备份软件,因为它们需要每周一次完全备份、每天一次增量备份……
公司要采购各种各样的设备,在采购的过程中会有很多的技巧。了解这些技巧对我们来说是非常重要的,必要时可以起到事半功倍的效果。
交换机在应用中会出现很多问题,为了在网络中能够满足更多的存储平台或主机服务器,交换机需要定期扩展或替换。交换机通过升级可以达到更好的性能,增强网络的有效性,限制网络流量并提供智能化功能,比如对网络的虚拟化。
最新更新
专家答疑
技巧
Pierre Dorion
我们要购买5TB SATA存储系统,这个系统可以升级到50TB,并且可以和SATA、FATA共用。它也应该能支持多重OS和RAID级别,哪一个对于我们的需求是最好的套件呢?
Jo Maitland
SaaS存储服务会减少存储设备总数和购买的存储容量吗?近期看来没有什么显著的不同。但是从长期看,随着越来越多的服务建立在云计算上……
Greg Schulz
我们有两个负载均衡网络服务器,都是可用的,正在尽力访问SAN上的相同的LUN。我们在操作系统和EMC SAN上用Windows2003标准版本。我们如何实现并行写入SAN……