DoSTOR专访 HDS文件服务平台:发挥数据价值

DoSTOR存储专访:在大学的教科书上,数据类型分为三种:结构化、半结构化以及非结构化数据,我们可以将我们所接触到的所有文件都按照这三种分类加以区分:关系型数据库中的数据是结构化的,电影、音乐等多媒体文件是非机构化的,电子邮件、网页等数据是半结构化的,凡此种种,数不胜数。

在很多年前,计算机上的文件还只有文本文档和表格时,所有的数据都是结构化的,而随着多媒体计算机–就是那种可以发出声音,播放音乐或是加了硬解压卡能够播放VCD的计算机的出现,慢慢的,计算机从单纯的运算工具,变成了具有娱乐功能的电子产品,而在又经过了数年之后,现在的计算机已经深入到了我们身边的各式各样的办公、生活、计算以及娱乐等领域,但是,此时人们发现了一个很严峻的问题:在整个文件系统中,非机构化数据和半结构化数据占据了80%的存储空间,只有区区20%的空间,留给了早已经不是"数据主流形式"的结构化数据。

可惜的是,非机构化数据和半结构化数据的搜索、归档与利用与结构化数据相比,不知道复杂了多少倍–Google曾经打算用图片的主要颜色来帮助用户在自己的文件系统内搜索图片文件,从而解决对于非机构化数据来说最大的难题:搜索,但是,很可惜,Google失败了,工程师们发现,要想解决非结构化数据和半结构化数据的存储、搜索、归档和利用问题,显然是非常困难的。

日立数据系统公司(HDS)全球解决方案服务副总裁Hicham Abdesssamad

日立数据系统公司(HDS)全球解决方案服务副总裁Hicham Abdesssamad认为,解决文件存储平台的应用难题,完善企业数据归档的最重要的出发点是:One Platform for all data(为所有数据提供统一平台),作为曾经在业界多家知名公司担任过服务部门重要职务,拥有超过13年的IT行业从业经验的年轻副总裁,Hicham觉得,HDS公司今年3月份推出的集成文件服务平台,能够从存储、安全、数据保护与搜索等多方面,解决企业面临大量的结构化数据和非结构化、半结构化文件所带来的问题,因为HDS在做的,正是One Platform for all data。

5月14日,我们在北京见到了Hicham Abdesssamad,就HDS推出的集成文件服务平台,以及这个平台下所包含的各个功能套件,如Hitachi Data Discovery Suite(日立数据发现软件套件)、Hitachi Essential NAS平台、Hitachi High-performance NAS 平台、Hitachi Content Archive 平台进行了一次有关"文件管理"的对话。

认清问题:"过去"的文件服务器

"现在我们的非结构化数据是2272PB,但是到2010年,预计会达到20000PB。" Hicham用一个颇有些"可怕"的数字来警示我们非结构化数据可能会给我们带来的"大麻烦"。他表示,目前的情况是,只有4%的非结构化数据已经在内容管理系统的掌握之下,而剩下的96%仍然没有被有效的管理起来,而且,就像Hicham所言,这些数据仍然在以10倍于结构化数据的速度在递增,但问题是,这些数据都不能随便的销毁或是删除–不仅仅是因为法规遵从的压力,更大的原因在于,这些数据中存储着企业发展的重要信息。用Hicham的话说就是"Content is King"。

他表示,对于企业来说,必须要明白,任何一个文件都有可能包含着具有价值的信息,即内容为王,内容的价值体现在多个方面,而如何了解文件的内容,建立好的文件服务平台是最基本的要求,比如说,只有在了解数据所在的文件属性、内容属性以及诸多信息才能够对数据进行有效的分类,从而加以利用,但是,现在的情况却并不乐观,有很多的企业的文件服务平台都处在"过去时"。

"根据IDC的调查《The Hidden Costs of Information Work》显示,如果一个企业的人均年薪为6万美元,那么以目前平均的每年浪费在的搜索文件和电子发现上的时间,每人价值5251美元,如果这个企业有1000人,那么一年下来企业将会浪费价值500万美元的工作时间。"Hicham表示,现在的文件服务平台以及内容管理和归档方式,造成了极大的浪费,从文件存储或者说文件服务器的角度来看,目前NAS是应用最多的文件存储方式,但是,Hicham认为,"过去时"的NAS存在很多问题,首先,现在的NAS文件服务业务模式,在随着文件的不断增长的同时,成本在不断上升,而且,在多个远程办公室之间进行复制、传输以及删除等远程异地管理时,仍然难以做到完全的高效和高可靠性,尤其是往往不能有效的对数据进行分类的归档,因此,也很难基于内容的价值对文件进行分层存储,以达到最高的经济型。

与此同时,目前的归档系统不仅种类繁多,如磁带、光盘库、NAS和普通的RAID阵列以及CAS归档系统,而且最重要的是,这些数据都处在信息孤岛上面,无论是电子邮件、文档管理、Web应用程序,都处在各自为政的情况之下,从而导致了目前的许多归档系统与文件服务平台存在四个较大的问题:

  • 1、 各级内容归档系统之间,以及与整体系统之间脱节,形成信息孤岛
  • 2、 扩展性较差,容量、分层存储等难以实现
  • 3、 难以支持跨设备甚至是跨平台、跨应用之间的数据搜索
  • 4、 缺少强大的数据保护和数据认证能力

作为HDS全球解决方案服务副总裁,Hicham觉得,用户现在有必要改变一下他们的系统了了,在面临非结构化数据的强大压力的同时,用户必须将文件服务平台与文件归档系统进行有机的整合,从而完成对未来的文件爆发式成长的最好应对准备。

统一平台:三者合一 各自取舍

今年3月5日,HDS发布了其首个集成文件服务平台,作为业界首个面向文件管理与归档,尤其是非结构化数据的文件服务平台,当时引起了不小的关注,这个服务平台,看起来更像是一个三位一体的解决方案,其中,包括了Hitachi Data Discovery Suite(日立数据发现软件套件)、日立NAS存储平台(包括Hitachi Essential NAS平台和Hitachi High-performance NAS 平台)、Hitachi Content Archive Platform平台(HCAP),Hicham表示,HDS的文件和内容解决方案是整体架构在这三部分平台上的,高端的High-performance NAS为高性能计算以及其它有高性能存储要求的应用提供具备高性能的文件存储能力,而Essential NAS则针对一般企业的文件共享与文件存储提供廉价的大容量的解决方案,而HCAP则提供了那些超过90天即不访问的数据的有效的归档能力,除此以外,日立数据发现软件套件则肩负着提供内容搜索和电子发现的任务–这样一来,无论是生产文件的存储还是旧文件的归档,无论是存放文件还是搜索内容,HDS的文件服务平台都可以以整体解决方案的来解决问题,与此同时,这三者还拥有一个强有力的纽带。

Hicham认为,对于文件服务平台来说,有一个非常重要的必须特性:Global Name Space,全域命名空间,通过Global Name Space,用户在应用文件服务平台时可以发现,HDS的两个工具:管理文件和内容的HiCommand以及搜索NAS平台文件以及HCAP管理的归档数据的日立数据发现套件,可以很自由的进行工作–如果一个系统基于全域命名空间,那么显而易见的好处是,用户可以完全不必操心系统内有到底有多少的设备、平台,其所看见的,只是一个全局的文件管理设备,所有的文件都在一个文件存储池中。

对于日立数据发现套件(HDDS)和日立内容归档平台(HCAP),Hicham特别指出,这个套件是一个无缝集成在NAS文件存储平台和HCAP文件归档平台上的,除了支持自动化的文件查找和跨平台/设备的查找读取功能之外,其可以通过与ISV的应用环境相结合,ISV可以通过HDDS提供的文件搜索、电子发现、风险评估、文件分层等CLI和API进行数据的交换与系统的集成,除此以外,他还谈到了了HDS的文件服务平台在ABM-AMRO荷兰银行的成功应用,Hicham介绍到,荷兰银行应用的是一款名为Cesar的文档管理软件,而HDS只用了两天就将HACP与Cesar结合在了一起–这完全得益于HDS与全球许许多多的独立软件开放商(ISV)的充分合作。

在与Hicham的沟通中,他屡次提到了"内容为王"的观点,对于这一点,我们自然是非常赞同的,但问题是,如何才能发挥出数据的价值,展现出"内容为王"的真正含义呢?

如何发挥数据价值

搜索是Hicham想到的第一件事情,我们之前已经提到过,HDS的文件服务平台是基于全域命名空间的,因此为搜索提供了一个绝好的基础,不过问题依然存在,那就是对于企业来说,最大量的数据并不是在生产系统中,也不是在备份设备上,而是归档平台之内。由此,引发出了对于HCAP的一个要求:如何更好的满足搜索需求?

"HCAP是跨平台跨多系统,它不但支持HDS自己的架构,也支持用户现有的其它架构。"Hicham表示,得益于HCAP是基于开放协议存储架构的,因此,HCAP的多平台支持不仅仅限于HDS自己内部的各种平台,也包括了许多竞争友商的平台系统,同时,在支持多平台多系统的情况下,其仍然能保留原有文件的开放属性,且能以TB级扩展来满足用户对于单一平台的搜索的需求,因此,HCAP具有极强的可搜索性,Hicham认为,更强的搜索性与跨平台性、开放性带来了三大好处:一是让企业更容易的掌握数据;二是简化的数据存储架构;第三是真真正正的帮助用户降低了成本,并在提高数据系统稳定性的同时满足了企业对于自主选择存储系统的需求–如果没有良好的跨平台性和开放协议支持,用户往往会被"锁死"在一个固定的供应商或是存储系统之上,这显然是不利于选择更好更适合自己的设备的。

最后,我们提到,在电子发现领域,除了搜索、法规遵从和归档之外,用户的数据能否进行有效的分类,也是利用数据的关键,同时,对于数据重要性的分类将能够帮助用户构建更加绿色和低价的分层存储,因此,在电子发现和数据归档领域,数据的分类也是一件重要的事情,Hicham表示,目前HDS对数据的分类是在部署归档系统前进行的,HDS通过工程师和服务人员与用户的沟通,利用工具和顾问模型去与用户一起对数据根据其重要程度进行划分,然后才引进HCAP归档平台–"HDS对数据分类非常重视,因此,我们将其作为应用HCAP平台之前的工作。"Hicham谈到。

在与Hicham的沟通之后,我们为HDS的文件服务平台归纳出了4个关键词:统一、对症、搜索与利用,虽然这几个词看起来并无太大的关系,但是我们觉得这四个关键词仍可以用来概括HDS文件服务平台:"得益于统一的全域命名空间,以及有针对性的"对症下药"的存储系统,HDS文件服务平台从而可以顺利的完成用户的搜索任务,并进一步的对数据加以利用。"

于是,对于Hicham来说,他所要做的,只剩下宣传的工作了。