《存储e周刊》第151期特写:统一数据管理

    我们正处在全球数据爆炸的开始阶段,相比之下未来50年人口急剧增长显得微不足道。到2050年,世界人口预计从65亿增加到91亿。更惊人的预测是,自动监视和数据收集设备(50年前闻所未闻)的数量可能不久就超过人类。更多人口+更多设备+更多时间=更多数据。据IDC Worldwide Disk Storage Systems Forecast 2006-2010 ,我们可以预计全球数据在这十年中的复合年平均增长率为50.6%。这个增长率意味着每5.5年左右,需要管理的数据将增加10倍。 
  
    全球性的数据爆炸才刚刚开始。由于宽带互联网接入的快速增长、数据设备的增加以及需要通过复制来保护重要数据的做法,日常生活中的数字内容呈指数增长。随着数据量的增长,数据存储和管理的复杂性也相应增加。数据增长,全球对数据访问的需求增大,法律要求更复杂,数据中断的后果越来越严重,数据寿命更长,所有这一切都使 IT 架构师承担的责任越来越大。因此,CIO和IT架构师越来越依赖存储供应商并要求他们帮助解决这些问题。数据太多、应用太多,以致人们没有足够的时间来备份和恢复它们。
  
    毫无疑问,数据备份与归档已经成为一个迅速增长的市场。而新近上市的CommVault无疑是其中的另类。在VERITAS被Symantec收购,Legato被EMC收入囊中之后,CommVault已经成为这个市场上唯一一个上市的独立备份软件供应商。而CommVault自身的历史并不算短,CommVault Systems成立于1996年,致力于数据备份和恢复系统的革新。在此之前它是AT&T Bell试验室的一个部门,1998年时,CommVault着手开发高性能企业备份和恢复解决方案产品套装,当时市场上大多数数据和存储管理产品都是在十几年以前设计的,复杂而落后的基础架构已经无法满足高速信息社会的需求。为了解决这些问题,CommVault历经十八个月的“脱产”研发,创造出先进而独特的“QiNetix统一数据管理平台”。2000年初,CommVault Systems发布了其旗舰数据保护产品,CommVault Galaxy,自那以后,CommVault Systems和很多顶尖的软件和硬件厂商建立了联盟来增强软件的功能,这些公司包括:DELL,EMC,HP,HDS,IBM以及Microsoft。IDC把CommVault列为企业级数据存储和管理软件的领导者。
  
    CommVault在中国成立上海办事处之前的几年内,一直是通过全球OEM伙伴以及其在国内的一些渠道代理伙伴来销售自己的产品。而自2005年年中,由于欧美市场存储用户的高度成熟以及市场的饱和,CommVault的管理层看到了中国这个成长中市场的巨大潜力,终于下定决心正式进入中国市场,在经历近半年的筹备之后,最近,CommVault中国公司正式走出幕后。到今天,在中国区总经理徐永兴的带领下,这个新团队已经走过近一年时间,而在这期间CommVault也成功上市。而其全球CEO Robert Hammer先生也第一次来到中国,向中国的专业媒体讲述CommVault与众不同的统一数据管理之路。
  
    在1998年,CommVault完全放弃其前代产品,希望重新开发更适应市场需要的统一数据管理平台之时,面临艰难的选择。在Hammer看来,当年的选择从某种意义上与重新创业并无不同,但又不完全相同。相同的都是从头开始,虽然有了准确的目标,但这个目标在当时市场来说是前所未有的,能否成功以及用户是否认可都未曾知晓。不同的时,因为有着之前的基础,加上Hammer准备充足的资金,有足够的时间去从头开始。自1998年至2004年间,公司始终处于亏损状态。但2005年开始已经收支平衡,并看到赢利的希望。通过其为上市而提交的S-1申请表格可以看出,截至2005年3月31日的上一财年CommVault净利润48万美元。从2005年4月1日至12月31日这九个月,CommVault净赚900万美元,总收入8100万美元,2004年同期收入为5900万美元。而截至今年3月的财年中,CommVault总收入1.095亿美元,净利润510万美元。
  
    这些数字不仅仅证明CommVault的目标正确,也表明统一的数据管理平台是用户迫切需要的。ESG在2005年对目前的备份和恢复方案进行了调查和分析,问题最多的前5项表明都与时间有关,66%的人认为“备份时间太长”,49%的人认为恢复时间太长。这么多的数据,来自哪里?非结构化数据(未存储在数据库中的大量文件和电子邮件)是这种增长的最主要因素,占组织在线存储数据量的70%到80% 。此类数据的增多是大量书面存档的日常转换。同时,数据文件的有意副本也加剧了数据量的增长。重要数据例行复制到多个位置以防止所有类型的灾难。例如,在数据挖掘领域,通常为了运行商务智能查询而复制巨大的数据库。应用程序开发和测试过程中也会有意地创建大型数据库的大量临时副本。在全球,重要数据例行复制到多个位置以防止所有类型的损失。 
  
    CommVault统一的数据管理体系则将界面与底层架构统一,以一个统一的平台实现多种数据管理操作,从而节省用户的总体成本开销。由于共享底层的架构,很多源代码各功能模块都可以共享(比如数据的传输,对于备份、归档、快照、迁移等操作都要用到),所以可以大大节省开发资源,避免不必要的重复劳动,只要在相关功能方面开发新的代码即可,在保证统一性的同时,加快了新功能模块的开发进度。“统一、整合”这可以说是CommVault产品体系的核心架构,不同的数据管理模块构建于一个公用技术引擎(CTE,Common Technology Engine)之上,它们之间通过数据可分类与内容可搜索机制((Data Classification and Content Search Enabler)相联,并统一受控于智能操作平台(Intelligent Operations Management),而所能提供的功能模块包括了备份/恢复、快速恢复、持续数据复制(保护)、数据迁移、数据归档、存储资源管理等。
  
    在谈到CommVault所独有的索引文件技术时,其产品管理总监梅立宏举了实际的例子,某个人将一个文件发送给15位同事时产生的副本数:收件人将文件保存到个人系统之后,可能还复制一次文件作为备份,按规定第二次复制,第三次复制用于灾难恢复。这样,将单个文件发送给15个人可能产生60个文件副本:15个有意副本和另外45个无意副本。个人在共享文件时无意中创建数不尽的数据文件副本,使问题更加复杂。
  
    而让CommVault骄傲的地方恰恰在此,文件备份时会建立两套索引,一个是一级备份数据的索引,记录了备份数据的关键信息;另一个是二级备份索引,记录着索引的信息。一级索引分布在各备份服务器上,使用C-TRIEVE数据库进行检索,二级索引则相当于一级索引的索引,使用微软SQL数据库进行检索。这其中,二级索引的数据将一直累加,而一级索引相当于一个索引的缓存(Cache),为了保证索引的效率,其内建的索引条目将被限制在一定数量,当超过这一数量,将把最不常用的索引信息删除,日后若需要寻找相关的数据,可从二级索引库中进行查询。
  
    采用分布式关系式结构而非传统的目录式索引结构,可大大提高检索的效率,而且它还将数据的索引与数据一起保存到备份介质中(比如磁带、光盘等),也就是说,即使一级索引与二级索引都被破坏了,用户还可以从备份介质中找到索引信息,虽然恢复的速度要比一、二级索引还在时慢,但这种设计使得数据可恢复性大提高。而且由于这种机制使得索引的精细度可以大大提高,从而可以细化恢复的颗粒度,使精确而快速的定点恢复数据成为了可能。
  
    CommVault采用两级索引模式,是因为CommVault相信,一切的数据备份、保护操作都是为了在需要使用数据的时候,能够快速恢复。而在恢复管理中,有效的索引无疑是一大利器。CommVault的分布式索引方案,使快速检索和快速恢复成为可能。
  
    CommVault数据管理的不同之处在于,其不仅仅是对存储设备固有功能的调用,而是创建了一个统一的服务平台来建立和调用CommVault的功能。CommVault提供了一个具有集成能力的通用技术引擎CTE来跨越三个层面的数据管理:恢复管理、数据保护和归档管理。这种独特的能力具有节省费用、使用方便的优势。CommVault的QiNetix是包含所有上述功能的统一软件产品,是统一的源代码,在一个GUI用户界面下就能管理数据恢复、保护和归档,具有统一的索引,只要一个策略就能完成数据在不同存储层之间的传输。


    点此阅读完整的第151期『存储e周刊』
    点此免费订阅『存储e周刊』,第一时间快速掌握全球领域的最新动态
    点此免费订阅《信息存储》杂志,“信息创造价值”