存储e周刊特写第215期 畅想一个未知的分层归档

冰岛,一个北大西洋上的岛国,树木不多,但地热资源丰富,不过由于位于北欧,整个国家经常笼罩在寒冷之下;相对来说,墨西哥显得更加舒适和温暖,这个位于北美洲,西邻太平洋,东部毗邻墨西哥湾和加勒比海的国度,让人们想到的更多的是炎热的沙漠、带刺的仙人掌和高高尖尖的墨西哥帽子。这两个看似没有任何共同点的国度,现在,却因为存储行业而联系在了一起。

去年12月,HDS经与Data Islandia公司签署协议,打算将其全球最大规模的数据归档中心建立在冰岛上,并表示要在冰岛提供世界上环境最友好的归档服务。HDS的服务现在的情况是:它将把冰岛作为一个归档目的地,因为冰岛上的电力设施更绿色、能源更便宜而且环保、电信服务的价格也十分低廉,并以此吸引那些美国或英国的大企业传输他们的数据到这个北极圈边缘的国度来。一旦数据进入Data Islandia的数据中心,用户就可以通过互联网来管理自己的数据,并可以使用一个建立在日立的内容归档平台(HCAP)软件之上的管理界面来对数据进行删除、索引、搜索等相关操作。当能够装入18TB的SATA磁盘的磁盘保护盒装满后,Data Islandia就将其运回,并将数据导入到公司的数据架构体系中,Data Islandia公司的首席业务拓展官Sol Squire表示,"在这些磁盘开始旅程前,上面的数据都是经过用户加密的。"

美国时间5月22日,IBM墨西哥全球归档解决方案中心正式成立,这个中心旨在帮助公司制定并建立长期的数据归档方案。中心配备30至50名专家,它将为企业提供模拟现实世界客户的环境并帮助企业解决保存数据方面的问题。这是IBM的第十一个全球中心,也是第一个把重点放在特定技术的"痛点"而不是客户纵向产业或IBM生产线。IBM存储系统的世界性营销经理Charlie Andrews说:"我们把精力集中在归档上,并假设有大量的数据增长发生"。

上面所说的痛点,就是数据归档,而将冰岛和墨西哥联系在一起的原因也逐渐明朗:这两个国度,建设着全球两个关注在数据归档应用的数据中心。

数据归档:数据量激增

在谈到IBM的归档中心时,EGS的资深分析师Brian Babineau在一份电子邮件中说到,"该中心在世界上不多见的,它专注于归档过程,并进一步把数据与传统的备份分开,客户应该认识到,归档是不同与备份的,IBM正致力于帮助做到这一点"。据ESG的调查显示,厂商们将在未来五年内归档200多Exabytes的数据库,档案和电子邮件。而据其他的研究表明,归档业务的数据在2012年可能超过30多个PB,或者超过3000万GB,世界各地的档案,数据库和电子邮件存档能力的年复合增长率将会高达73%,其信息总量近2万亿个档案柜的信息量。

虽然,在法规遵从领域,有类似美国的HIPAA条例规定医院和诊疗所对医疗纪录和图片要保存7年,儿科记录至少要保存25年这样的条款,但是,越来越多的用户发现,数据归档的重要性在于,找到数据的价值。

Babineau说:"IBM意识到,这种需求不仅是一种时尚,厂商们需要从一个长期的角度来判断什么时候需要归档关键业务信息"。就像IBM存储系统的全球营销经理Charlie Andrews 所说"将数据扔到数据箱里的时代已经过去,归档将会成为对每个行业都有意义并与之相关的主题。"

事实上,在我们近期与用户与厂商沟通的过程中,大家都表现出了对于归档的急切心情,与一年前我们所收到的反馈不太一样的是,用户开始逐步从将归档作为法规遵从的"副产品",转变成为了利用数据,进行数据挖掘的等工作的"主存储"。

不过,虽然仍然是归档工作,我们依旧注意到了一些与去年不太相同的地方。

归档数据日益复杂

BridgeHead Software前两天推出了一款新的归档解决方案,并承诺这个方案将使得存储和数据检索变得更加容易,需要的时间更少,更具成本效益,尤其是针对那些需要保存和整理大量的堆积如山的数据的健康医疗机构来说尤为适用。

这是一个面向医疗健康机构的图片归档和通信系统(PACS)的归档解决方案,对于大多数医院和健康医疗机构来说,有无数的医疗影像被存储在其PACS中,并由此带来一个问题:病人有可能在数月甚至数年之后,回到医院来复诊,为了医疗诊断的正确性,医生必须去调阅病人的病历–很难想象,这时候的用户病历和X光片会在主存储或是备份系统上,可以很肯定地说,用户的数据已经去了"PACS的归档系统"。

但是,对于老年人、年轻人、慢性病和各种不同的病人来说,他们在时隔多年后的病历的调阅概率是一样的么?

答案肯定是否定的,这就像目前BridgeHead的做法是将最活跃年轻人的图像数据都存储在高可用的主存储上,而对于老年人的资料档案,查看频率较低,因此存储在成本较低的存储设备上去–厂商也看到了不同的数据价值,但是,这实际上只是普通的分层存储,不过,我们想到了更多的话题。

归档,可以分层么?

很多人觉得,归档就是归档,这还有分层的需求么?

就像分析师们所言"厂商们需要从一个长期的角度来判断什么时候需要归档关键业务信息。"我们认为,分层归档或许现在是一种畅想,但是在未来,其可行性还是有的。

对于分层归档来说,其关键点首先在于两种设备的配合使用:物理磁带库和虚拟磁带库(VTL),我们都知道,VTL的读取和写入速度都是非常快的,这肯定是物理磁带库难以比拟的,大量的用户去应用VTL的原因是其归档体制必须要去"面向磁带",因此,虽然这二者后面一个是磁盘一个是磁带,但是对于用户来说,却并无二样–但是,性能和耗电却成了关键。

由于VTL性能更好–当然,也更耗电,而磁带虽然耗电较小,也并不十分的"热",但是读取性能确实相差甚远,因此,这样的差异造成了而在在归档上的差异。绝大部分的用户,目前的应用模式是,将数据临时保存在VTL上1~2个月,然后再去物理磁带库做归档,转存到真实的磁带上,但是,对于医院来说,这样的归档真的试用么?

我们可以假设一个例子,一位病人去医院看病,医生在治疗之后,要求用户每6个月去医院复查一次–这显然超过了一般VTL进行临时归档1~2个月的周期,那么,我们现在要去医院的磁带库去找用户的资料么?或者,我们让用户每次来都带着无数的之前的X光片和病历?看起来,这点不太合适,对于用户来说也太不方便了。

那么,在类似Copan这样的厂商在尝试利用MAID技术,以及希捷、西部数据等硬盘厂商推出的更节能的硬盘,并在持续不停的改良VTL的耗电问题之后,我们是否可以尝试将那些超过VTL的归档周期,但是又不得不每隔一段时间就要调取的数据–比如购买汽车后,每隔半年就要进行跟踪的汽车制造商和4S店来说,根据数据的特点,来决定是把这些归档数据放在VTL上还是物理磁带库上?

当然,我们对于这样的归档,只是一种想象,或许,会有人告诉我们,真实的存储世界有着更好的办法,抑或是指出别的什么问题,我们希望您能够反馈给我们,谢谢。