对象存储架构所解决的文件遍历问题

日期:2016-4-5作者:Marc Staimer

【TechTarget中国原创】在处理庞大的数据集合时,你一定不想要耗费大量系统资源来检索所有的文件才查找得到你想要的信息。对象存储,与其特有的识别符,很大程度上简化了这个过程。

在对象存储体系架构的最底层,所有的数据仍以块存储的形式加以存放。对象存储作为块存储的上层,包含了数据(即包含所存储信息详细描述的元数据)以及独有的识别符,将其封装成为特定的对象。由于对象存储的逻辑结构位于块存储之上,它与下层的硬件层无关,于是便可使用任何x86处理器、内存、磁盘驱动器以及固态闪存,而不需要专属硬件来支持特定的对象存储。事实上,绝大多数对象存储都运行在消费级的产品上,或使用白壳机配合硬件与固态闪存。

一个对象存储体系架构通常包含了海量的元数据。常见的元数据包括安全策略,即诸如控制对象访问权限以及对象加密与否的信息、数据保护政策或管理策略。

对象并不会像文件存储或NAS中的文件那样用索引来组织;相反,它们只需存储在非等级寻址空内(Fat Address Space)。对象的定位与操作经由其独特的识别符与元数据完成。这与传统的数据块存储截然不同,在块存储中,数据被放置在系统中实际物理存储的位置,或者文件位置可以通过集中化的文件目录重新指向。

对象存储更适合于大型的数据集合


对象存储体系架构中的非等级寻址空间使其较传统的NAS或SAN 存储系统更适合大型数据的存储。NAS系统中单一文件的检索会涉及到一次详细搜索——通常被称为文件遍历(File Crawl)——完整的索引才能找出某个文件。该过程消耗了文件系统的大量资源,会影响到所有的读写操作,而且系统耗费的时间会随着文件系统的扩展而显著提升。随着系统存取需求提高以及文件数量的增大,文件索引的方式会在某个时刻到达瓶颈。

对象存储的检索明显会来得更快,因为其只会搜索唯一识别符和元数据。由于不需要遍历整个文件系统或索引,对象存储的扩展性更强,对性能的影响则更低。

绝大多数的对象体系架构在标准的RESTful应用程序接口之外都有相应的文件接口,例如NFS、SMB以及Hadoop分布式文件系统(HDFS)。这使得对象存储可以像NAS那样读写数据,同时保持自身的优势。HDFS接口使得对象存储成为Hadoop方案中更具成本效益的体系架构。

对象存储的上述差异性使其更为以下多种应用环境中更具成本效率的方案,包括了:

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

评论
查看更多评论

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者>更多

Marc Staimer
Marc Staimer

Marc Staimer是Dragon Slayer咨询公司的总裁。他是存储市场分析和存储管理方面的专家。

数据中心存储策略>更多

  • 硬盘容量也可调?美光玩出“新花样”

    企业级数据中心比以往任何时候都需要革新传统 IT,企业需要根据自己的工作负载和具体的应用找到最适合的闪存和硬盘的解决方案。

  • 下一轮创新 谁将主导?

    我们的社会从工业革命就进入到指数级增长期,这种指数增长的特点就是,从任何一个点去看,未来的发展一定是越来越快的。那么新一轮的创新,将由谁来主导?

  • 以数据为中心的存储观

    在数据的价值能够被系统和进程充分利用之前,我们无疑将存储更多的数据,做更多的数据备份并且可能丢失重要的数据。智能存储依靠于智能以及智能存储工具。

  • 砥砺前行 第六代FC技术生态已就绪

    距离上一代光纤通道产品推出5年后,今年3月,博科再次领先市场,发布业内第一台第六代光纤通道存储网络交换机G620,能够支持第六代光纤通道32Gbps的带宽速率。

相关推荐

  • 2017最受关注的12家存储领头羊公司

    2017开年,和您分享最受关注的12家企业存储厂商大名单。从该名单中,你可以看到存储巨头的最新动态及未来看点。

  • 切换云供应商如芒刺在背 如何应对?

    云存储带来诸多便利,例如提高灵活性、按需付费以及近乎无限的扩展,但还有一件事没有解决。即便在理想状况下,你或许仍然需要花上近一天的时间来切换云存储服务商,这或将成为一种不堪重负的过程。

  • 是你吗?!细数2017年数据存储领域最值得关注的潜力股(十四)

    SearchStorage发布本年度存储领域最有前途的创业公司排行榜,印证了我们在与数据中心管理员和供应商们的讨论中感受到的趋势。我们评选出的存储新人最终名单中的大多数都是在过去一个日历年年诞生的。虽然这些初创公司形势看好,但未来的路仍然艰辛难料。

  • 是你吗?!细数2017年数据存储领域最值得关注的潜力股(十一)

    SearchStorage发布本年度存储领域最有前途的创业公司排行榜,印证了我们在与数据中心管理员和供应商们的讨论中感受到的趋势。我们评选出的存储新人最终名单中的大多数都是在过去一个日历年年诞生的。虽然这些初创公司形势看好,但未来的路仍然艰辛难料。

技术手册>更多

  • 云存储技术手册

    云存储的产品可以说有千百种,也可以说为数不多,这要取决于对云存储的定义范围有多广或者有多窄。无论是哪种定义范围,云存储产品的数量预计今年都会有所增加,因为云存储保持着快速的发展势头。为了方便大家更全面更深入的了解云存储,本技术手册整理了一系列云存储技术文章,希望能对大家有所帮助。

  • 快照技术手册

    究竟什么是快照技术?主要有哪些类型?本手册中TechTarget中国的特约专家对其进行了详细的讲解,并在其应用中给出了指导性建议。 

  • 虚拟机备份与保护教程

    虚拟机技术正以前所未有的脚步通过提高服务器的整合能力对数据中心产生重要的影响。如何进行虚拟机备份与保护?这本技术手册将解答您在虚拟机备份与保护方面的疑问。

  • 分层存储技术手册

    这本技术手册中,TechTarget专家将深入给我们讲解如何选购分层存储工具,以及在应用过程中的遇到的一些问题和解决方法。

TechTarget

最新资源
  • 安全
  • 虚拟化
  • 网络
  • 服务器
  • 数据中心
  • 云计算
【TechTarget中国原创】在处理庞大的数据集合时,你一定不想要耗费大量系统资源来检索所有的文件才查找得到你想要的信息。对象存储,与其特有的识别符,很大程度上简化了这个过程。

在对象存储体系架构的最底层,所有的数据仍以块存储的形式加以存放。对象存储作为块存储的上层,包含了数据(即包含所存储信息详细描述的元数据)以及独有的识别符,将其封装成为特定的对象。由于对象存储的逻辑结构位于块存储之上,它与下层的硬件层无关,于是便可使用任何x86处理器、内存、磁盘驱动器以及固态闪存,而不需要专属硬件来支持特定的对象存储。事实上,绝大多数对象存储都运行在消费级的产品上,或使用白壳机配合硬件与固态闪存。

一个对象存储体系架构通常包含了海量的元数据。常见的元数据包括安全策略,即诸如控制对象访问权限以及对象加密与否的信息、数据保护政策或管理策略。

对象并不会像文件存储或NAS中的文件那样用索引来组织;相反,它们只需存储在非等级寻址空内(Fat Address Space)。对象的定位与操作经由其独特的识别符与元数据完成。这与传统的数据块存储截然不同,在块存储中,数据被放置在系统中实际物理存储的位置,或者文件位置可以通过集中化的文件目录重新指向。

对象存储更适合于大型的数据集合


对象存储体系架构中的非等级寻址空间使其较传统的NAS或SAN 存储系统更适合大型数据的存储。NAS系统中单一文件的检索会涉及到一次详细搜索——通常被称为文件遍历(File Crawl)——完整的索引才能找出某个文件。该过程消耗了文件系统的大量资源,会影响到所有的读写操作,而且系统耗费的时间会随着文件系统的扩展而显著提升。随着系统存取需求提高以及文件数量的增大,文件索引的方式会在某个时刻到达瓶颈。

对象存储的检索明显会来得更快,因为其只会搜索唯一识别符和元数据。由于不需要遍历整个文件系统或索引,对象存储的扩展性更强,对性能的影响则更低。

绝大多数的对象体系架构在标准的RESTful应用程序接口之外都有相应的文件接口,例如NFS、SMB以及Hadoop分布式文件系统(HDFS)。这使得对象存储可以像NAS那样读写数据,同时保持自身的优势。HDFS接口使得对象存储成为Hadoop方案中更具成本效益的体系架构。

对象存储的上述差异性使其更为以下多种应用环境中更具成本效率的方案,包括了:
 冷热数据的归档
 检索
 分析
 备份

 合规文档

 社交媒体

 文件分享
 云存储

用简单构想一下就能理解为什么对象存储会成为大部分云存储供应商的首选数据存储模式,包括Amazon的Web Services、Google、IBM的SoftLayer、Microsoft的Azure和其它许多服务商。

对象存储提升了数据保护等级


对象存储中的海量元数据与非等级存储池结构使其成为纠错码的理想选择。纠错码需要相当多的元数据,但其比传统RAID方式来防护磁盘或硬件故障更加经济且更具弹性。纠错码将数据松散地分解存储在一系列对象中,称之为数据宽度(Width)。阅读取回数据只需要找到数据宽度的一个子集,称之为数据广度(Breadth)。当数据广度可以被读取到时就代表着元数据可以被访问到,这时便无需获取到整个数据宽度来得到完整的数据。

假如不能阅读到所有的对象说明在读取过程中发生了错误。数据本身并不受影响。这时会重新创建新的对象来替代那些读取失败或无法找回的部分。在占用冗余存储量角度看,纠错码比RAID或镜像复制更有效率。

随之多处硬件并发故障的情况日益增多,所需的保护等级也逐渐提升。这里举一个例子,假如数据需要足够的容错性来防止6个硬件同时出错的情况,用多镜像复制的方式需要7倍的复制量,即占用额外600%的冗余存储空间;RAID压根无法提供7位的奇偶校验,你最多只能选择RAID 6来实现三重校验并对整个RAID进行镜像复制。这种配置方式需要大致2.5倍的复制量,即占用额外150%的冗余空间。此外,这还会大幅降低存储性能,尤其在发生重构的时候。对象存储体系架构用纠错码的方式,20位的数据广度占用26位的数据宽度,或者要性能更好的话,用16位的数据宽度代表10位的数据广度,这会占用额外30%~60%的存储空间,即1.3到1.6倍的冗余量。在达到同样硬件保护级别上这是巨大的成本差异。