展望未来存储的规范 MetaData--元数据

    在存储的基本原则领域,正酝酿着一场重大的变革,它既不是存储区域网(SAN),也不是网络附加存储(NAS),尽管两者都将在新的存储原则中扮演非常重要的角色。这场变革涉及,metadata(元数据)在特殊数据方面扮演的角色;来自应用程序、最终用户和操作系统的数据存储在什么地方。

    当商家们谈论元数据驱动的存储时,总是离不开”存储虚拟化”这个名词。商家会告诉你,取决于特定元数据的应用目标,存储虚拟化的好处可以含概从:修复性能的提高到检索能力再到易管性,以及在硬件水平上对异构环境的适应性等一个或多个领域。

    投资回报理论上对最终用户和被分派设计管理企业存储的人员来说都提高了生产力。而存储虚拟化能带来容量最优化,从而节省硬件投资。

    一般而言,将元数据应用到一项技术中,意味着更丰富的描述属性会取代一些基本的属性。例如,我们在许多关于身份管理的讨论中听到了元数据这个名词。在这种情况中,元数据通常指除了用户名和密码,更多和某人身份相联系的属性。这些属性可能是一条描述他们购买权限(purchasing authority)的代码。

    在信息存储的情况中,元数据层则往往意味着使静态的、在操作系统或应用程序中存储数据的单一仓库(monolithic repositories)变成可扩展的存储云(storage clouds),这样会令存储更具适应性。最终用户当然更喜欢这种组织检索信息的方法,而由于物理硬件需要发展,IT经理们也同样需要这样的可扩展性。

    最近我们在哪里听说元数据和存储呢?可能最值得密切关注的是EMC可能掀起的整合风潮。EMC已经宣布它将收购内容管理解决方案提供商Documentum。如果曾经有某一范畴的企业应用体现了虚拟化存储的优势,那么它一定是档案和内容管理,这是Documentum、Veritas、OpenText和FileNet这样的厂商的任务。元数据是实现档案和内容管理虚拟存储的关键条件之一。从数据管理的角度出发,应用存储虚拟化和像EMC这样的厂商提供的其他存储技术是密不可分的。

    甚至在收购Documentum之前,EMC就已经开展了元数据驱动的存储管理业务。在今年早期的一次采访中,EMC的首席技术官Mark Lewis就向我描述了他们公司网络附加存储背后的大体思路:”另一种存储信息的方法是作为对象存储。你可以将对象看作没有结构化的数据。数据库由结构化的数据构成,它意味着相关纪录通常是动态的而且有高度的依存性。一张照片是非结构化的数据。它通常被我们称为固定内容(Fixed Content)。它可以是一张医学图片、一段电子邮件纪录或者是被扫描的文档。我们拥有内容可选址存储(CAS),来存储那些纪录。我们创造了一个产品领域来优化存储这些数据,我们希望,在接下来的3年里,接近75%的数据会属于这个范畴。”用大型对象存储的少量信息-你可以猜到-就是元数据。

    Waltham公司的总裁,Steve Weissman表示,像EMC这样的存储公司和像Documentum这样的内容管理公司是天生的一对, “总的来说,内容管理集中在信息搜集后的组织和促进信息访问;存储系统一般保护信息并在需要的时候确保它的可用性。因为它们都广泛应用元数据来加速共享和恢复进程,所以它们结合起来效用更明显。但是要做到最高效,它们还需要一起被建立和利用,而不是作为基础设施的单一部分被利用。”

    当EMC掀起存储虚拟化领域的并购狂潮的同时,还出现了一个元数据驱动的信号,那就是微软最新开发的文件系统WinFS ,它可能将作为微软下一代操作系统 (代号Longhorn)的一部分。微软已经泄露了一些关于WinFS的消息,最近的一条是澄清关于一些Longhorn是否支持NTFS(被基于NT架构的系统,包括NT、2000和XP所支持)的谣言。

    微软可能没有用到”元数据”这一词汇,但是从可靠消息中明显可以看出,微软会让元数据在WinFS中扮演相当重要的角色。微软的高级副总裁Bob Muglia最近向CNET下属的News.com透露,WinFS也将包含可扩展标记性语言(XML)的数据标记特性。Muglia在那次访问中提到,”想像WinFS将嵌入关系数据库技术,XML数据库技术和文件系统拥有的文件流技术。这将是独立于应用程序的,不可预知的存储格式。”

    也许是为了证明元数据层能带给存储食物链的多样性,IBM最近引入了Total Storage SAN文件系统(也可以理解为存储池??Storage Tank)。存储池背后的思想是存储虚拟化,但是和你想的可能又有区别。应用程序、操作系统和最终用户实际上是和存储细节分离的。但是取代了作为内容管理的发展远景,这里的发展远景是存储管理(尽管传统的内容管理依然有效)。 IBM声称,当企业能够提取绝大多数或全部的SAN并通过统一的接口将它们合并到一个云(或者说池)里的时候,存储池项目会充分展示它的光辉。是什么让存储池成为可能?答案是元数据。

    依照IBM最近的新闻稿,”IBM开发了一种软件用于跟踪指定的描述信息,比如:物理位置,文件大小或访问权限,以及文件的内容。大多数的存储系统把元数据放在自身中,而存储池则可以把这些信息传播到网络的服务器上,这依靠IBM该款软件能够镜像元数据位置的功能。换句话说,要拥有分布式的特性和整合不同种类数据的能力,存储池必须依赖系统级(和内容级相反)的元数据信息。IBM表示,最后的基础设施能够承担效用计算的随需特性(on-demand):因为IT经理们拥有单点的管理能力,而且不需要建造过多的存储仓库以适应任意实体的增长需求,总体拥有成本会保持在最小值,所以所有实体都不会超出容量。

    正如你能想像的那样,在存储池这样的系统结构中,可靠性是基本的。如果元数据不知何故无法访问,一个企业可能面临瘫痪。为了保证可用性,存储池必须依靠一个Intel/Linux元数据服务器的集群(最小化的配置需要两台服务器,价值90000美元)。和大多数集群技术一样,元数据数据库的冗余是存储池集群技术的一部分,可以增长到八个系统。

    事实上,数据库在元数据驱动的系统中扮演着举足轻重的角色。任何不仅仅依赖一些基础信息的存储基础设施都需要一个持久、高速、安全和容错的数据库技术。如果没有正确的配置,元数据层(和伴随的数据)只能说是弊大于利。

    举个例子来说,微软已经做出解释,它即将发布的Yukon关系数据库技术是WinFS的关键组成部分。尽管我们大多都经常在Longhorn的相关消息里听说WinFS,而微软对WinFS的野心不会仅仅停留在桌面操作系统上。当你考虑存储虚拟化技术和大量的元数据的时候,就会一点也不惊奇地发现:基于下一代数据库技术宣传中的优点(高可用性,额外的备份与恢复特性,复制增强以及默认的安全)考虑,为什么微软的WinFS期待Yukon了。同样地,如果元数据数据库没有深入的植入到基础设施中,而且不具有和微软赋予Yukon的类似的设计目标,无论是EMC的内容可定址存储还是IBM的存储池技术都不能得到发展。

    将数据库植入存储食物链已经不是什么新闻了。我们现在在存储虚拟化中做的事情和1970年IBM的System 38的做法相当相似。System 38技术最后发展到AS/400,又进化成IBM现在的iSeries系统。在IBM的iSeries高级技术人员Amit Dave看来,”存储虚拟化是System 38的设计标准,将数据库直接整合到操作系统中在完成目标的过程中扮演着举足轻重的角色。”在Dave眼中的好处非常明显:”我们的想法是除去所有磁盘驱动器的概念,并减少用户对数据放置和存储管理的投入。相反地,用户只需要专注于创建数据模板,其他的都交给系统去做。System 38自动联合所有的磁盘驱动器,这样它们在应用程序中呈现成一个虚拟的内存存储。因此,应用程序和用户都不知道系统拥有多少磁盘驱动器,这样他们就不需要了解如何存储数据,如何分派空间,或是如何将数据展开到多个磁盘分卷里。”

    与当今更水平化的存储虚拟化技术相比,System 38主要专注于一类应用程序(数据库)。但是它们的设计目标,以及给最终用户带来的好处都是基本相同的。在Dave看来,如果没有元数据层,很多事情都不能付诸现实。他说:”在很长一段时间里,元数据的概念都会在存储的方方面面起指导作用。它的发展前景是巨大而无止境的。”(天极网)