存储在线 5月18日北京消息:IBM系统存储大会今日在京隆重举行。会上,来自IBM的众多高层与嘉宾分别分表了精彩的演讲。
IBM 系统与科技事业部大中华区总工程师 陈国豪先生为参会用户带来了IBM高可用性解决方案以提高业务连续性。
陈国豪:我在IBM工作主要把一些成熟的产品,成熟的技术,IBM技术IBM产品跟友商技术融合在一起,所以我今天的题目是业务连续方面分享我的经验,和大家报告一下业绩成熟的方案和技术。
我跟大家报告一下行业趋势,我在三个方面一个是高可用性,一个灾备,和业务连续性来跟各位分享一下。停机对业务影响非常严重,我们影响停机和业务生产我们总裁都是非常生气的,这是一个在美国的调查,大家可能有一个感觉,不同行业停机影响的应用成本是不一样的,但都是非常严重的,比如我们看一下能源业,停一个小时在美国2001年的时候影响生产280万美金的成本,银行业,金融服务停一小时影响生产成本150万美金。整体来说整个美国每停一小时企业就会损失1百万美金,不同行业每一个员工平均影响生产力200块美金一个人,所以影响非常严重。
所以在过去30年,有不同领域有不同的方式保护我们的生产,70年代对数据备份做一些保护,到80年代扩展到机房里面高可用性,高可靠性的保护,到90年代谈到灾难备份,现在2000年谈到应用的连续,每一个阶段我们需要了解不同的公司里面的应用技术,除了我们技术,我们还需要明白应用、流程和公司里面不同部门的关系,以及了解业务的策略是怎样的。
在业界把灾备分成了七个级别,要是级别比较低,实施的成本也比较低,级别比较高我们实施的方案成本也比较高,在一般的高端企业面向第六级或第七级。我们进行灾难恢复或数据恢复的方案,其实我们IT同仁、企业IT部门经理看重什么因素呢?他们看重应用的连续性,另外看重的是数据的备份,这两个东西非常重要的,90%以上IT同仁都会看重业务连续、数据的备份。
今天全球企业级用户做了什么?我们看到40%用户做了数据备份,还没有做到六级、七级的灾备,在中国有2/3企业级用户有一个灾备中心,他做了数据级别的保护。看一下大型企业和中小型企业的分别,有一半大型企业分别有一个数据的灾备,还有一个灾备中心,而中小型企业就没有一个灾备中心,可能只有一个数据的保护。
这个是业界趋势,有三方面的方案,首先是高可靠性的方案,高可靠性的方案定位就是同一个机房里面所有东西都要冗余保持高可靠性。机房里面有四个不同的模块,最上面是边界冗余,下来是服务器、数据服务器冗余,也有网络,SAN的冗余,最后是在市场上看到存储方面的冗余,所以有四个不同的程序,我把在业界里面跟各位分享成熟的方案和成熟的技术在这四方面是什么?
服务器冗余不同平台有不同的科技。周边冗余比较简单就是第四到第七层交换,还有负载平衡的环境。最后看到最近一两年很多高端企业都谈到存储的冗余。
这是简单的服务器冗余,在Unix平台上,双冗余的服务器,一个服务器死掉,我们可以把应用摆过来,等修复好以后可以切回到原来的服务器里面,这是服务器冗余。在PC服务器上也配合做一些PC服务器需求。在过去一两年高端企业对数据存储保护看的很重的,如果服务器停机一小时之内可以备份出来,一旦存储坏了,我的经验可能运气好两小时,运气不好要一两天。所以在一些高端行业,全球也开始慢慢做这样一个方案,有双冗余在存储方面,当然有不同的做法,左手边是双磁盘,右边是存储的拷贝来保护。
同一个中心就可能看到灾备的环境,灾备是非常重要的,回顾过去15年有很多灾难的事情,美国9.11,去年Hurricane Katrina(Katrina飓风)在美国,所以灾难备份对企业满需要的,灾难备份在某个生产周期里面多加一个、两个灾备中心。这两个中心可能同城异地,去实施灾备的时候,我能允许发生灾难的允许掉多少时间的数据,一秒钟,还是完全不能掉,还是三、五分钟可以。通过分析后之后就把刚才定位的七层,可以定位到我需要的灾备是哪一层。
要是在企业级别看到的需求,一般都是第六、第七层灾备进行的,这里面有四个不同的技术模块。第一个是存储的拷贝,我们需要从一个中心通过存储的拷贝把数据拷贝到另外一个灾备中心。当然拷贝不一定是通过硬件来实现的,也可以通过软件来实现,通过软件实现的好处是网络要求比较低,当然它的数据丢失可能比较多。有一个很重要的东西,有很多时候都没有考虑到就是数据一致性,要求多台的存储在生产中心,要是没有考虑数据一致性,灾备中心一旦发生事故,我的数据一点没有丢失,如果没有数据一致性,我的应用可能起不来了,所以必须要进行数据一致性的考虑,需要不同的技术来进行这样的部署,IBM有TPC,重要功能就是做数据一致性,IBM高端存储DS8000可以做到数据一致性,所以不同平台,不同需求有不同的技术。最后就是自动化,我们在9.11的时候,美国很多中心、很多行业在纽约都有数据灾备中心,但是起不来,起不来的原因是当时IT人员都找不到了,也没有实施自动化的流程,所以就一天、两天过去,三天都起不来。所以9.11以后所有行业都非常重视自动化。
数据拷贝就不多谈了,只有两个可选的东西,一个是同步,一个是异步,同步没有数据丢失,异步是一点数据丢失,IBM一千公里可能丢失3到5秒的数据,这看你的业务量是多少,IBM在大中华区最远的一个异步方案是200公里。通过软件拷贝的解决方案也很多,不同厂家有不同的方案,IBM在高端存储,高端服务器有GDPS,通过软件来进行拷贝的工具,我们在中国大的软件都是通过软件的拷贝工具来进行北京上海、或者上海广州,广州深圳的数据传输,支持的数据量非常多的,用软件的好处对网络的要求是比较低,比如甲骨文的软件,有可能15分钟的数据丢失,有可能半个小时。那东西蛮重要的,尽管没有数据丢失我们灾备中心很可能起不来。给大家一个案例,右手边流程是我们测试一家国营企业的银行,它数据非常多是全国的数据,我们做了一个测试,它有很多台服务器,有很多台的存储,它的中心是1200公里的距离,自动化工具能在100分钟之内把所有的服务器重启、所有的应用服务器启动,所有的存储恢复100分钟之内,没有自动化工具最少要六个小时。所以自动化是非常重要的一个工具,IBM有根据不同平台的不同的解决方案,有一些是IBM自己的方案,有一些是我们和友商合作的方案。
IBM最近提供一些所谓端到端的方案,把友商的科技,把我们的服务,打成一个包,这个包一般面向中小型客户,这个包做什么?我用一个视频来说明。 刚才谈的是一个服务包,这是一个打包的端到端的整体服务解决方案,在Windows平台,在Unix服务平台,我们还有一个在Windows平台能进行灾备的方案。
最后一个方案是业务的连续性,刚才看到高可用性都是面向硬件故障的,都是面向一些灾难,硬件故障的,其实业界发生故障的时候65%不是跟硬件有关系的,有可能是人工错误,或者应用发生问题,有可能是变更管理做得不好,发生数据丢失,那样的情形导致生产停止的。
在最近一两年整个业界都谈到业务连续性,业务连续性是怎样一个东西?它是从整个企业考虑,不光是主机和应用,不光是人员和流程是整体来考虑的。每个东西都有不同的模块,在最近几年在业务连续性方面看到四个不同的方面,一个是信息生命周期管理,另外一个是策略咨询服务,我们该做什么,不该作什么?什么东西用不同的方法保护,这是IT的决策咨询服务。第三个是IT安全与监督,我们怎么管理一个数据中心,最后就是有很多用户做的,不同的行业有不同的安全指标的要求,在医院都有HIPAA的标准需要去满足,那些需要被尽量减少人工错误,所以有一些安全的标准要满足。在银行有Basel II这个标准,所有行业我们看到Sarbanes-Oxley Act (SOX),满足这标准证明你管理的机制很好,所以很多需要都会找一些基准服务来满足这个行业的标准。
我谈一下信息生命周期管理,IBM做的事情就是两个目标,一个是发生意外的时候,发生手工的故障的时候,我能回到某一个时间段的数据,数据的备份。另外一个主要的功能就是作为历史数据的处理,比如我一年,或者五年的数据以前就扔掉了,现在SOX的标准,要保留七年以上的数据,这些东西不能说永远都在一个硬盘里面,那太贵了,可能需要进行不同级别的存储,生产放在全球,历史的放到磁带库。
当然也有一些行业的服务,BCP(业务连续性计划)做的东西在这图上看到是风险管理,业务影响的方式,什么业务需要做哪几个层次的保护,就在这样一个风险分析出来的结果,我们应该用哪些产品哪些技术。我们有一个很好的方案,很好的技术,很好的流程,但是我们需要一个很好的管理,所以慢慢看数据中心管理里面不同的环节,比如变更管理,恢复管理,灾备管理,整体的流程是怎么弄到一起的,这些是非常重要的。
最后总结一下我今天说的题目,要做一个很好的业务连续性方案,除了看场地,数据、网络、硬件、软件以外,在这上面还有两层,一个要知道我们有什么样的业务需求,我们针对这个需求有一个管理的机制,我们有组织去实现这个需求,我们有很好的布置,下来我们才选择服务、网络、这样我们有一个很好的布局。我今天就谈到这里,谢谢各位!