如今,我们生活在一个数字的世界里,网络中传输的信息资源和业务应用已经是现代企业的动力源泉。与此同时,由于企业都希望通过持续业务流程优化和IT自动化提高竞争能力,因此,防止“计划外停机”已经是IT部门的核心工作之一。基于这种需求的改变,以高度可靠的方式,安全地部署关键业务应用和网络架构已经成为一种趋势,这都促使集群和高性能计算正逐步融入企业核心业务层。很多基础设施的应用,例如链路冗余、双机热备网关、企业ERP、Microsoft Exchange邮件、和Oracle 10g数据库都已经利用集群技术进行部署。
作为国内IT运维领军企业的摩卡软件,在IT运维领域积极推动BSM(Business Service Management,即业务服务管理)的普及,并在国内推出了第一款针对业务服务模型的网络管理系统——Mocha BSM。在最新发布的Mocha BSM 7.5.0中全面增加针对核心业务HA集群的监控和自动运维技术,促进了关键业务高可用性的延伸应用。
集群监控缺少“健康感知力”
集群(Cluster)指的是一组运行模式相同的应用系统并向客户端和应用系统呈现统一系统的资源(服务器或是网络设备)。这种系统通过集群软件或者内置的功能模块实现了程序上的一体化连接,从而能够使用单机无法实现的容错和负载均衡功能。由于其高可用性的优势地位,使得这种技术被广泛应用在企业核心业务系统平台的基础建设中。
集群对于传统的运维监控工作而言,往往不被重视,因为一旦某个系统出现故障,应用服务将被瞬间切换到另外一套设备上,管理员对于集群的运维也只能做到“事后诸葛亮”。摩卡软件产品总监侯军认为:“在传统的运维领域中,我们对待集群的看法可以用‘全自动拆东墙补西墙’这几个字来印证。一套双机热备(HA)业务系统集群的运况,仅能简单的认为集群中的某台主机设备只存在‘可用’或‘不可用’两种状态,无法对集群可能出现的故障进行前期判断,这离之前许多媒体和厂商谈到‘主动运维’的标准相距甚远。”
集群明显的优势都是在不影响上层应用的前提下做到的,因为一般情况下,它的模式对上层应用是透明的,然而,对IT运维层面来说,集群在IT工程师眼中却不能是透明的,因为核心业务已经被迁移到集群上运作,因此这些系统就存来着故障等级、服务等级等更加详细的运维守则。集群的健康程度应该及时得到评估,并且能够持续优化才是关键。大量的事实证明系统从“可用”转向“不可用”并非是瞬间发生,而存在一个过程,在这个过程中,系统的某些核心指标将会提前显示出异常,虽然此时系统对业务人员仍然表现出 “可用”状态,但整个系统实际已经处于“崩溃的边缘”。对客户端的请求反应逐渐变慢,系统出现不稳定的迹象,系统整体可用性逐渐降低,如果不进行任何干预,集群很有可能出现“不能切换(故障转移)”的情况。那么,集群(HA)的意义也就不存在了。
如何做到集群系统的整体监控
在商用IT系统领域,从简单的双机交换、网关、防火墙,到具有开源负载均衡特色的Web、中间件等多主机系统,再到Oracle EXADATA V2这样大型的OLTP数据库一体机,甚至最热门的虚拟化基础架构VMware vSphere,无不渗透着集群的思想。那么,这么多的集群分类开始广泛出现,运维工程师应该如何应对呢?
摩卡在Mocha BSM 7.5.0中增加的HA集群监控采用了“分而治之和整体应用共存”的方法。首先我们来看核心业务应用的监控,如果将这些设备和服务器单独拿出来,则常规的监控可以分为端口和进程两个部分,端口可用性可以判断出这些设备是否在线,而系统和应用进程是否高出正常值则可以判断出负载的多少。当然,单独有这两项监控是不够的,因此在Mocha BSM 7.5.0中新增了“主备设备”的概念。那么怎么理解这个概念呢?例如用户现场的核心交换机有两个,一个主设备一个备用设备,当主设备不再可用时会切换到备用设备上,从而不影响整体使用,此时我们可以将这两个设备定义作为一个监控整体,形成“主备设备”。这些设备又可以根据业务的特性自动关联为“业务拓扑图”,从而建立针对业务集群的整体运维视图。
集群的风险预警与持续优化
由于集群对象中IP Address,Alias,Volume,Process,Service,CPU,Memory,Network Interfac都有自己的属性、方法、事件等,众多复杂的参数无法在一个视图中展现出来,当然还有一些用户对于集群监控漠不关心的情况。种种原因,导致在传统的运维监控中,用户可能在部署集群之后,对于可用性的管理只能停留在“等待结果”的状态。这就犹如为心脏停止跳动的病人进行复苏,难道不觉得太晚了吗?因此,如果我们能够预知系统将逐渐变得不稳定,而提前做好应对措施,防止系统崩溃,或者将突发性宕机转化为计划性维护,这将对运维工作产生更多益处,这也是真正实现7*24的有力保障。
在Mocha BSM 7.5.0中将集群监控分为四个阶段:自动收集、业务合并、实时监控、业务优化。Mocha BSM 7.5.0提供了全新集群智能预警体系,持续监控维持核心系统稳定运作的重要指标变化,包括集群连接数、数据库的存储空间、Web的访问迟延、网络的流量、CPU的负载、心跳线状况、集群仲裁资源的健康程度、系统内存的余量等等,任意指标出现异常状况,即可快速做出响应,防患于未然。同时,如果采用了标准的集群设备,摩卡软件还可以根据用户业务系统的特点开发集群模板,自定义监控对象的指标采集方法,就可以让集群系统实时监控这些指标,并触发相关的事件。用户不但可定制监测器功能对集群性能整体进行监管,反映集群服务的总体运行状况,还可以使用Mocha BSM 7.5.0中的网络焦点(Network Focus)和网络流量分析(NTA)自动关联功能对业务系统集群进行效能优化,通过详细的报表功能分析集群性能指数,提升服务水平。
企业需要高度可靠的IT平台才能保证连续运作,不被业务之外的事情困扰。摩卡软件提供世界级的IT运维服务解决方案,企业不但能以高度可靠的方式安全地部署关键业务应用和网络,还能通过其独特的模块化解决方案显著降低运营成本,实现投资保护,最大程度地提高IT与业务的凝聚力。