DoSTOR存储专访:和BridgeHead谈归档的ILM

    DoSTOR存储专访 12月13日北京消息:长期信息归档的问题主要来自与日剧增的电子邮件和非结构化文件的数量,而法规遵从则必须满足外部法规的要求。但无论是进行信息归档还是法规遵从流程,大多数存储基础架构的要求是相同的。
  
  从某种角度上讲,内容归档并不是一个很新的需求,2000年之前就已存在,只是随着法律法规对此方面的要求越来越严格,随着信息沟通能力成为企业核心竞争力的一部分,企业需要长久保存和随时调用的信息每年在以2倍的速度增长,已经达到了海量的程度,直接促使实现内容归档的产品和解决方案日臻完善。


    而随着电子商务应用呈爆炸式增长,国内外针对电子邮件的相关法律法规越来越明确,而且电子邮件所管理的信息每天在跳跃式地增长,已成为业务交易的重要媒介,这些交易记录必须作为公司资产不能只是由每个人来保管。每天成千上万产生的电子邮件和业务文档,同时占据了用户和服务器的很多空间,这也直接影响了应用的性能,加大了企业计算机部门的负担,一个有效的电子邮件归档解决方案就显得极其重要,并成为内容归档的一个重要分支。



    数据生成后,随着时间的推移,其访问频率将逐步下降,数据被保留的时间越来越长,被消除的数据越来越少,重视TCO(整体拥有成本)的企业,都需将不常访问的数据迁移到较便宜的介质上,节省存储投资。因此,企业在进行内容归档建设之前,首先要对需要归档的业务数据进行分类,然后根据数据的容量、保存的时间、访问的频率,反应的速度这四个必须考虑的因素,进行量身定做。
  
    关于归档针对的数据,ESG(企业存储研究集团)提出了“可访问的信息”(Reference Information)概念,“保留这些数字资产(即内容归档)的目的是为了提供参考和产生价值”,“它包括(但不仅限于)电子文件,如:合同、email、email附件、讲稿、CAD/CAM设计、原代码、Web内容;以及一些数字化的影像信息,如:支票影像、蓝图、历史文件、医疗影像、地理数据、生物信息、录像、声音数据、以及照片。”而在文件归档的专业厂商BridgeHead的,全球销售高级副总裁Ryan Witt看来,BridgeHead把文件分成四种




  • 结构化的 (数据库)


  • “近结构化的” (邮件、组件)


  • 由应用产生的工作流文件


  • “非结构化” (普通文件)

    在这些文件类型中,非结构化的文件占到了最大比例。而且,这类文件的自由度很大(比如用户可能会自己更改文件名),增长率也很高,文件系统也没有为每个文件做具体的描述,最重要的是,这类文件中经常用到的很少,很多文件都是闲置的。因此,对非结构化文件的管理成为了归档管理中最大的难点。Ryan Witt认为,这不同于EMC Documentum这类的文档管理软件,BridgeHead所肩负的任务更靠后,面对的是在归档过程中如何对文件进行管理的问题。
  
    BridgeHead从创建之除,就立足于归档/备份领域,在文件归档市场逐渐升温的今天,他们也看到了中国存储广阔的市场。由其全球的合作厂商Plasmon的配合,BridgeHead正式进入国内。前不久,其全球销售高级副总裁Ryan Witt先生来到国内,笔者就如何定义归档文件的ILM与其进行了深入探讨。
  
    目前,BridgeHead的主力产品包括了用于文件归档的HT FileStor、用于多路径应用归档的的HT Data Repository、用于企业备份的HT Backup和用于企业存储设备与介质管理和HT OpenMedia。而对于其他相关类型的文件归档管理,Ryan Witt表示将借助于合作伙伴的成熟软件予以配合使用,比如QUEST的邮件归档管理软件和Grid-Tools的数据库文件管理工具等。在上述软件之中,HT FileStore又是最为关键的部分,其通过对存储上的文件属性进行扫描和分析后,将存储上的空间分成了5个部分,分别是:




  • Free Space:空闲的存储空间;


  • Unlikey to be accessed:不太可能访问的内容;


  • Static Data:静止的数据,有可能会用到;


  • Active:活动的数据,经常被用到;


  • Unwanted:不需要的数据,比如临时文件等。


    对于空闲空间以外的内容,HT FileStore可以根据用户定制的策略进行以下四种操作:




  • 对于不太可能访问的内容,将其迁移至归档设备并将原数据删除;


  • 对于静态的数据,将其迁移至归档设备,并在上级存储中建立可供快速调用的指针信息(Stub),这个信息文件容量很小,相当于一个索引;


  • 对于活动的数据,如果需要进行归档,并保持原有数据不变,这就有点像备份了;


  • 对于不需要的数据则直接删除。


    为了更好向笔者解释清楚归档的重要性以及BridgeHead HT FileStore归档软件的特点,Ryan Witt以英国陆地测量部为例。陆地测量部选择了BridgeHead的独立、自动、基于策略的归档软件HT FileStore以及Plasmon的UDO光盘库来进行可靠、长期的归档。此解决方案能够存储和管理巨量、需终身保存的归档文件,而不需要定期地迁移到新的存储介质上。



    Plasmon的UDO WORM(一次写多次读)技术能确保陆地测量部的测绘和历史信息能保存数十年,数据的真实性是无可置疑的、介质的寿命是无与伦比的。UDO介质的稳定性极大地降低了归档管理成本。通过部署UDO,陆地测量部能够舒服地进行8到12年的数据迁移周期管理,而通常的磁带或硬盘的数据迁移生命周期仅为2到3年。
  
    陆地测量部每个飞行季节收集超过40TB的数字图像数据,文件大小超过1GB是很常见的。BridgeHead的HT FileStore提供长期数据管理并且使用智能自动迁移策略来定位这些新文件和将它们归档到位于当地或异地的Plasmon G系列UDO光盘库上。过了一定期限,当确定归档文件是完整的,则在服务器上巨大的原始文件处留下仅1KB的一个标记(Stub),从而极大降低了购买和管理主要存储设备的成本,同时允许用户完全透明地访问归档文件。做了标记的文件也进行了索引处理,因此用户能够做深度归档查询。当发现文件后,可制定恢复位置并且马上能进行处理。
  
    能够同时归档多份拷贝并放置到多个位置是选择HT FileStore的主要因素。其自我复制的归档特点消除了几乎所有额外进行的备份和灾难恢复程序的开销;结合UDO介质,提供了可靠的灾难恢复解决方案。HT FileStore制定的策略将数字文件迁移到当地的G638 UDO光盘库(19TB),同时将这些文件复制到放在异地做灾难恢复的较小的Gx24 UDO光盘库上。
  
    可以说,在实际应用过程中,无论是电子邮件归档,还是内容归档,都已经变成企业提升信息沟通能力不可或缺的重要手段。