存储在线 9月5日消息:近日,CommVault新品发布会顺利在京召开,CommVault中国区总经理徐永兴先生和CommVault全球产品总监梅立宏先生分别作了精彩演讲,本站之前有过相关报道。这是第三篇,CommVault资深系统工程师孙春杰先生的报告。
主持人:谢谢,下面由CommVault资深系统工程师孙春杰先生会做“一体化信息管理”的专题报告,掌声欢迎。
孙春杰:下面就是今天的第三个题目,全面实现一体化的信息管理。刚才都是着其一点介绍,我们怎样把我们的产品落实到实处,怎么给用户提供一个方案呢?下面我们从几方面帮助客户构建一个一体化的方案,从这个角度帮助用户实际的问题。
首先看第一个片子,提到的是信息时代,数据为王。各位可能都是搞IT,IT经历了很多时代,像网络为王、服务为王、应用为王,我们构建我们的网络、通过服务器、然后通过网络把数据传输出去,基于IT系统又有很多应用。所有这些东西都会反映大数据系统上,像国内客户更多关注是在怎样构建基础架构上,然后开发应用系统,我们知道国外的数据量已经很大了,我们知道国内的数据量虽然这个趋势也会越来越大。不管是网络、服务器所有的东西都是以数据为载体的,通过网络传输,都是文件式载体。所以我们知道数据一定是整个IT系统里面最重要的一部分,现在已经到了这个时代,到了一个叫数据为王的时代,我们怎样管理我们的数据,包括备份、迁移、归档。现在一个企业有10个T,然后是100个T,这么多数据产生,我们怎样针对它进行管理,这将来一定是企业所面临的。可能一个企业今年只有1个T的数据,不可能说明年的数据量减少到了50个G,这是不可能的。
我们不仅仅要做数据保护,后续的需求也会越来越多。刚才两位花了很长时间讲内容检索,国外企业已经把这些提到了议事日程上,快速找到数据、使用数据都是将来企业必然面临的问题。
其实在IT管理里面也有很多的模块,网络管理、存储资源、应用管理,作为存储管理来讲的话涉及到很多方面,比如说买交换机、磁盘阵列、买各种各样的硬件,磁带阵列买好了定好分区,建立多路径,然后在服务器上设好文件系统,然后就可以工作了。从硬件角度来讲,存储系统就不会有更多的变化,针对你日常的影响来使用。IT系统里面什么最重要?每天系统要做什么,不再维护你SUN架构、磁盘系统,因为它在正常运行,我们的系统管理员要做什么,每天都要做备份,然后从备份的系统里面获取数据。那当数据量越来越大的时候怎样找到数据,所以对数据的管理在以后是最核心的。在国外的统计,系统管理员每天的工作量60-70%都在数据的保护、恢复上。萨班斯法案规定,如果打官司的时候一定要及时提供这些数据,如果提供不出来就要面临罚款。这些都是企业面临的问题,那么多数据怎样快速备份、恢复。
这里提到我们在进行数据管理的时候主要面临的就是两个问题。第一个问题就是怎样对数据进行保护,有很多手段比如说快照、迁移、备份。可以放到不同的介质上,磁盘、磁带、光盘,可以放在上面。第二块就是当数据需要查询、恢复的时候该怎么办?传统的时候需要知道文件名,然后进行恢复,你肯定是恢复一个库或者库里面所有的文件,因为不能基于快速的条件,比如说像内容检索这种技术进行恢复。我知道很多客户习惯使用Google这样的工具了,它提供的是web的方式,但如果我们的数据不是放在web服务器上,是放在后端的企业磁盘里面、光盘里面,我们怎样去快速找到,能不能像Google似的输入关键字找到这些文件,这些表面上看来国内的客户需求还并不是很大,但从信息时代发展的趋势来讲这是早晚都要面临的,怎样在海量数据中找到它,然后进而发挥它更大的价值。
现在的时代已经到了数据为王的时代,那我们怎样对数据进行管理呢?我会从三个方面来介绍。第一块如何提供多层次的数据保护。第二,保护完了之后怎样发挥数据管理的更大价值,怎样在海量数据里面进行查询。第三,针对很多大的企业,像全国性公司或者分散式的机构提供集中管理的方式。一体化解决方案是从这三个方面论述的。
首先我先来解释一下Simpana的含义,前面三个字母是“sim”,是一体化单一管理,我们知道在业界里面很多客户知道,其实各个公司都是提供一体化的方案,我们可以看一下CommVault的一体化方案,可以在多层次数据保护方面来介绍,我们的一体化方案和其它公司的区别。“pana”是无所不在的意思。大家看到我今天穿的是红色,跟新产品的颜色也是一致的,很有意思的是我们提出的概念叫做“中国红”。
区别于其它软件,我们都知道业界有很多其它公司,用各种各样不同时期收购不同的产品满足客户的需求,可以说它都是有解决方案的,但各个解决方案之间并没有什么关联,只是说时间长了之后通过开放API来解决问题。而CommVault是通过解决底层的ATE针对不同的需求加入不同的模块来实现的。
我们可以把用户的数据从产生到消亡分成五个层次。第一层是应用层。第二层叫生产层,就是当应用产生数据,所有的数据都会存在生产层的磁盘阵列上。之后还会有三个层次,像倒数第二层,保护层,把数据备份到离线介质上,基于一个时间点进行备份,每天或者是每几个小时就进行备份,当源数据出问题的时候,可以根据历史点对数据进行恢复。相对于保护层还有恢复层,意思是像传统保护层解决的是以天为单位对数据进行保护,不管是备到磁盘上还是数据库上,调用策略进行增量。备份的单位是以天为单位进行备份,恢复的时候其实也是以天为单位进行恢复的,实际上这已经满足不了一些客户的需求了。像一些企业,我的业务种类必须要提供24×7的服务,像一些中国企业已经走出国门了,他在进行数据备份的时候不能停机备份,这就要用到磁盘快照的技术,每个小时就要备份,比如说5点钟要备份了,就进行快照,然后把硬盘挂到服务器上进行备份,这个过程是用另外一个服务器,不需要用单独窗口。通过这种叫恢复层的技术,我们都知道业界有很多厂商提供磁盘快照技术,通过快照技术可以知道每个小时做快照,可以利用这种磁盘快照的技术进行备份。恢复的时候也是一样,恢复的过程也只是用一个点进行恢复。所以恢复层的技术是利用磁盘这种快速技术达到以小时为单位或者以10分钟对数据进行保护。
可以说一个例子,在之前有一个银行系统说系统管理员把数据删掉了,他说你能不能提供一种方法,首先解决数据要用自动化的手段,之前是用磁带机的手段,磁带机经常坏,有可能管理员没有时间就不会备份,通常损失会非常大。我们可以想象一下,那就可以用保护层的技术,把它所有的技术都进行集中化,备到集中化的磁带系统里面,通过软件进行统一的管理,定期会产生报表,定期在自循环的系统里面进行磁带的循环,而不用人为的打各种标签,这些都是通过保护层技术实现的。他还提出了第二个需求,如果在系统有误操作就会丢失很多数据,他说能不能用小时的恢复技术,我们就建议他用恢复层的技术,把磁盘做快速恢复,甚至还可以做到以10分钟为单位恢复。
还有一个归档层,我们知道恢复层是为了快速恢复,保护层是为了传统的保护,数据越来越多了,像银行会对数据进行对信息进行归档,这个过程都是手工的。比如说监管部门对违章汽车的拍照,会以照片文件存在磁盘上的,但磁盘量有限,就会进行归档,当你三个月之后交罚款之后,工作人员会要求你提供一个申请,这个过程我们看到如果一个IT管理员一天处理一个需求的话会非常简单,但如果处理的多这个系统员一天到晚什么都不用做了,只需要做恢复都做不过来。所以我们怎么能够进行数据进行跟踪管理,而且这个数据已经归档放到磁带里面了,我们怎样在生产层上快速找到,我们就可以用一些归档技术,表面上看这些数据是没有动的,但实际上已经归档了,可以用纪念存储的技术解决客户这方面的需求。
其实各个软件,包括业界的其它公司都是有解决方案应对的。这是一同数据保护方式的总结,基于这些区别,各个厂家都是基于每种技术、每种需求来完成的,比如说一个客户有一个数据中心,又要做快照又要做归档、数据保护,可能用7种、8种甚至10种的技术满足各个需求,用户必须把这7、8套软件装到7、8个管理服务器上,然后对应上7、8套不同的存储上,其实这些软硬件相互之间都是没有联系的,我们可以想象到后期影响到用户管理成本会非常高,追加硬件、软件的投资也会非常大。CommVault跟其它公司跟其它公司的区别就是用同一个架构实现的,比如现在很多企业都上ERP系统,像一个工厂,里面有一个物流部门,用一套Service数据库管理他的系统,比如财务部门用Oracle数据库管理,这两个部门业务模式不一样,这就出现他们的管理数据手段不一样,交互数据是不统一的。现在大企业都在上ERP系统,在底层都构建了统一的架构,比如说用Oracle相应的插件,然后通过底层的架构实现统一信息。我们都知道,这些层之间的数据都是可以流动的,像恢复层的数据,现在做好快照了,之后我会把这个快照剥离开放到其它的服务器上,然后调用保护层的数据进行北门,恢复层和保护层的数据就联到一起了。相对于归档层和保护层也是一样的,归档层的数据已经归档了,放到光盘上或者磁带库中,没有必要每天进行备份的时候,如果两者不相互关联的话,在备份的时候会触发归档层的数据回迁,比如我发现1个月没有读取的数据要进行归档,发现有300个文件符合这个条件,那就可以进行归档了。保护的时候发现1个TB的数据就备1个TB的数据,当读到300个文件进行相应的回迁,那你备份的结果实际上还是1个TB。使用CommVault的技术,备份的模块,我认为一部分的文件是有标志符的,我只需要备份需要备份的文件。生产层会产生不同的拷贝,比如说到恢复层产生3、5份的快照,然后在保护层可以每天做增量,然后保留10个版本,基于这些版本,我们认为其实都是由于生产层的数据产生不同的版本,这些版本之间相互都是有关联的,基于这些关联我们就可以用这套架构实现一体化的管理。CommVault是用一套架构实现的,不需要构建一套新系统去实现。
我们看到用户数据有生产层了,用户对数据的恢复要求非常高,以小时为单位,我们每天可以做数据的快照,做成克隆卷,和它一模一样,这个肯定能达到以千为单位,我们可以做一个一模一样的快照,如果出问题直接迁移就可以了。另外还提供指针型的快照技术,可以恢复到5点钟、4点钟。我们可以看到恢复层的技术是调用磁盘的技术实现的,通常的手段有快照和复制来实现。怎样引入这个保护层呢?比如说现在发现磁带机经常容易坏,磁带机比起磁盘来讲可靠性没有磁盘高,那我们可以不断把经常变化的数据,用户对数据备份要求非常高的时候我们会建议备份到磁盘上,然后再把它放到磁带库里面来。业界有虚拟带库的技术,这还是不能取代传统磁带库的技术,它只是提供一种离线的存储方式,不像在线的硬盘的技术,放到磁盘上的技术操作系统还是可以看到的,因为虚拟带库提供的是一种备份的格式,无论如何还是不能把数据做下面这个动作,比如说出库,能把磁带拿走,但不能把磁盘拿走。其实这几种技术都是相互补充的,并不是相互替代的,我们可以看到磁带可以拿走,也可以被证实是一种可以保留很长时间的介质,我们可以看到这些技术可以相互进行弥补。很多客户觉得现在的网络比较好了,其实并不见得,你可以计量一下你的数据量多大、带宽多大,能不能同步的运行这些数据。所以当用户有不同需求的时候,我们可以计算出来用哪种方式更经济。
我们可以把归档层的数据归档到只读设备上进行归档,怎样对数据进行查询?用户会产生相对于生产层好几十倍的数据,我们怎样对这些数据进行快速查询,这是CommVault非常重要的特征。我们可以看到所有一连串的过程都是基于数据保护,都是基于CommVault提供的CAT技术引擎来实现的。你也可以加上复制层的技术,我们还有档案系统,比如说现在要做归档就要对档案系统进行管理,构建好这套系统模型后只要构建模块就可以了,不需要单独构建在新的服务器、新的存储上,数据可以从恢复层到保护层然后进入到归档层。当你要恢复的时候可以选择,现在有4个快照,有10个数据保护,还有50份的归档,你可以选择用任何方式进行归档,比如说你到磁盘快照的技术里面进行查询恢复,它们之间都不是相互关联的。CommVault和其它公司的区别就在这个地方,我们最初设计的时候这个CAT的架构就设计好了,不像其它公司虽然各个层的都有,但事实上都是不同的软件凑在一起实现的,不是像CommVault在底层统一实现的。
第二块我们可以看一下全方位的数据查询。因为后端数据量越来越大了,怎样发挥后端数据的价值?我知道很多专门做搜索引擎的公司,Simpana可以提供像Google输入关键字查询一样。但是Simpana和Google提供的产品有什么区别?Google提供的是在线文档管理和分类,CommVault是基于后端的数据查询管理,我们知道这块的需求也是很大的。很多公司说我的数据放了50年了,我需要找出需要的文件来,这很头痛,因为我已经不知道这些文件名叫什么了,或者只知道一些关键字,我必须找到它们恢复到一些磁盘里面,你能不能提供一种服务基于内容,然后输入关键字,可能找到10个文件,然后把10个文件进行恢复,之后看哪些文件是我想要的,然后充分加密,然后再把老的存在池删掉。还有做应用系统的开发,我们做研究的时候一定是依赖其它小组的研究成果的。我们可以想象一下国内的这些系统,因为我们接触这个行业很长时间了,基本上把所有的精力定位在前端,数据库怎样管理,应用系统怎么开发。随着数据量越来越大,国内还没有像国外那么成熟,国外把所有的资料、文档全部都是放到电子介质里的,而不像我们都放在磁盘里面,磁盘变得越来越大,磁盘是可以买很多,但你可以想像查询的数据量是1个T跟查询的差距有多大。
这里提供了查询的各种手段,首先给用户赋予权限,每个用户有自己的界面,事先他在活动目录里面定制好了自己的职责,然后查询相应的数据。CommVault是基于离线系统可以查询,基于在线系统也可以进行查询。CommVault会自动捕捉在在线系统上的数据更新,捕捉之后会更新到中间的内容索引服务器上,同时基于离线的介质,对它再进行内容检索,这个过程很显然不用像其它系统似的,检索的时候需要占用客户端的资源,这样就实现了在线系统的数据到离线系统数据的检索,其它国内的客户现在的需求并不像国外那么强盛。
我们可以预言一下,再过5年之后国内用户的精力也会放到后端数据管理上。客户可以分成两种类型的客户,每个客户可以赋予不同的权限,这里包括邮件系统、各种平台的文件系统都可以进行检索。CommVault现在支持70多种语言的文件检索。我们现在习惯于在前端发挥价值,但后端的价值会越来越多的。
适合的应用,这里列举了一下,比如说档案系统、文档系统,其有订单系统,销售订单是放在磁盘上的,比如说三个月,可能在下单的过程中经常需要,但往后要对它进行归档,还需要对它进行查询,既然能够提供离线系统的管理,那我还需要在线系统的管理,可以立刻恢复需要的数据,那么我们可以帮他基于内容在任何情况下把它找出来,这些都是CommVault的优势。
中国幅员辽阔,我们可以提供跨区域的集中管理,为什么之前跨区域管理弱一点呢,我们现在认为SUN架构在跨区域的系统里面并没有有条件构建SUN架构,更多的是通过网络,那就会出现一些问题,有各种各样的需求,但在整个地理域里,广州有一个系统管理员的帐号,可以恢复上海的数据。很显然这肯定都是不行的。所以我们在这块总结了一些特点,针对跨区域的系统如果要实现数据管理的话会有各种各样的问题,比如说权限,其实权限还有其它的含义,比如说密钥的管理,如果没有密钥的话会出现什么问题,各个人都会恢复这些数据,可以恢复企业里任何的数据,这很显然是非常危险的。那我们可以针对密钥的管理分成很多层次,即便系统管理员拥有最高的权限,他也是打不开这个文件的,通过这样的手段可以支持客户端非常多的用户使用。
第二条,体系结构的问题,这恰恰也是CommVault的优势,传统软件都是集中化的方式,因为它们的设计年代都非常早,都是80年代末设计的,在备份的时候只是在服务器上进行操作就可以恢复了,所以当所有的索引都集中到一台服务器上,那么这台服务器就会成为很大的瓶颈了,比如说怎样对它进行快速的查找,原来的系统并没有意识到备份系统怎样管理好,CommVault采用的是分布式的索引结构,所有的索引是分布在中间这层上进行管理的,由这层产生一个报告,交给主Service我今天给客户端做了哪些工作,我们都知道现在做管理的时候要实现授权,你必须把所有的权利下发好企业才能支持的足够大,你要进行查询、备份、恢复都是在一台Service上进行恢复,很显然领导者的工作负载是非常大的。CommVault支持分布式的架构,系统可以部署在很广泛的范围里。国外有一个公司,最初在全球构建了9个备份域,由于体系结构的问题,现在全部都是用的CommVault的产品来架构的。像E-mail系统的管理也是一样,今天是100个G,之后就是多少个T,你怎么对所有的索引进行快速的定位,当你索引量以千万或亿进行查询的时候,字对字的查询就真的是一个难题了,你必须采用相应的体系架构才能找到你要找到的数据。
对于数据加密,我们提供多层次的数据加密,比如说在网络传输过程中加密,在规定归档之后进行加密,美国加州有一个法律,一定要对磁带里的信息进行加密,因为里面会有客户的信息,这样就会造成损失。我们刚才提到各种阶段的加密,然后同时提供密钥的管理,这样就会更方便。
针对网络带宽的问题,比如网络存储,当一个网络出问题的时候,这时候传50%了,换到正常的网络还可以继续传。WAN网的不稳定会导致远程操作中断,如何处理操作中断是跨区域管理的一个关键问题。基于广域网系统CommVault可以基于它的特点提供快速的手段解决它的问题。
再有就是集中管理系统的高可靠性,包括监管、监控、服务器的切换,这些全都是可靠性,备份服务器的索引坏了怎样恢复,基于CommVault可以实现非常高的可靠性。
我们是基于怎样的权限进行管理呢?CommVault可以通过NDS把它的权限管理收集过来,同时CommVault客户可以进行相应工作,因为现在的企业越来越大了,很多企业都基于AD进行管理,设置好客户的功能,比如说他只进行备份和恢复作业,他就有相应的功能了,把这两个资源赋予给他,这个客户就可以进行备份和恢复,其它的各种功能就不可以做了,这样可以赋予整个企业非常高的安全权限。
CommVault认为用户的数据非常重要,不管系统出了什么问题,我可以立刻把数据通过其它路径进行备份,目的就是为了保护用户的数据安全性。你只要有可用的空间,比如磁带没了,转移到磁盘上都可以。这里说到一个全国性的公司,本地需要建立数据中心,可以用远程复制的技术复制到这个中心,他要求每天做备份,我们在本地放置系统,然后在备份之后的数据传到总中心,这样就构建好了一套跨区域的管理系统。
现在的很多客户不是用一个控制台管理的,每个地方备份系统都是独立的,不需要往其它地方放,但总部需要获得每个地方运行的情况,比如说第二年又新采购设备了,网络带宽够不够、多少磁带机、磁带是多少,要有这些历史依据。那么CommVault可以到每个地方收集这些日志,然后进而生成图形化的报表,这样就可以清晰的报告给上层机关磁带是多少,使用量是多少,同时为将来企业的发展做一个趋势分析。很多客户都使用这套监控系统监管整个企业。
下面是案例分析,其中有三个案例。第一个是美国暴雪公司,我们都知道魔兽世界,它从全球来讲使用的是CommVault软件,部署在欧洲、北美,在亚洲像中国大陆、台湾、日本、韩国都有相应的使用,在中国也沿袭美国的方式进行管理。他对数据的管理系统要求也非常的高,不可能在每个地方放一个工程师维护,同时针对里面的60套Oracle数据库进行恢复,恢复的界面非常简单。它使用CommVault就可以实现,针对它在国内的60套数据库全部实现图形化。针对6个地点做断点续传,网络断了也不怕。备份系统出问题的话,备份系统的备份服务器出问题了可以通过其它的备份磁盘进行恢复。不管通过它自己本身的在线系统高可用的设计、包括备份系统的高可用设计都可以实现整个系统正常的运营。
下面是某跨国公司在中国的总部,它的数据中心部署在四个地方,在全国将近有20个运营机构在运营,要求的只是对各地的文件服务器进行更好的管理,给每个人分配定额,然后监控他,还要进行归档,比如说订单放三个月之后要进行归档,但不能说让IT管理员进行恢复,一定是前面有指针进行自动恢复的。这个磁盘空间是有限的,比如说是1个T,里面可以放各种各样的文件,要求首先不能去删这些文件,各地文件系统要求实现数据复制,因为它要把它的数据放到数据中心来,万一某地的数据损坏了,所以我要做这样的备份。他选用把数据先备份完成之后,然后把备份的数据再采用叫辅助拷贝的方式放到另外一个地点。这样我们可以看到他需要的产品是什么呢?他需要从数据复制、快照,到数据保护、归档、邮件系统的管理、企业存储资源的管理,这个公司最开始找了业界其它的公司进行咨询,之后他最终选择了CommVault,因为只有CommVault只提供一个产品,在一个界面中完成,其它公司都是7、8个产品,他说光这7、8个产品的投资和维护的成本就很高,CommVault就不存在这样的问题,因为都是统一到一套架构实现的。
我们高兴地看到目前许多客户把大部分的精力放在备份、恢复上,这是中国的案例(暴雪公司),它也是延用了美国的方式。不过我们真的相信国内将来一定会针对数据管理有越来越多的需求,不单单要实现多层次的数据保护,还要实现内容检索,同时如果区域非常大的话,还要实现整个企业集中化的监控。
今天我的演讲就到这里。