联鼎软件 重新诠释系统的“故障”概念

DoSTOR存储在线 随着IT技术的深入应用,企业计算机系统的地位越来越重要,如何为客户提供"持续可靠的服务平台",如何提高计算机系统的整体可靠性就变得非常迫切和有价值了。

高可用集群技术是利用计算机软、硬件的冗余配置,结合故障侦测与转移策略,来保护用户的关键业不间断运行,不难看出,如何准确界定"故障",如何分析业务系统的"可用性"。就成为高可用集群技术的核心问题了。

联鼎软件提出了新一代智能集群的理论体系,认为只有提高对故障因子的采集、推导、分析及预测能力,才能真正提高主机系统的容灾容错能力,故障的如下属性,这也是智能集群的概念基础。

故障应具有"相对性"

业务系统是否正常工作,在系统指标的呈现上并不是绝对的,有些用户认为业务系统的访问请求应该在5秒之内获得响应,这样的系统才是可用的,然而有的用户则认为10秒之内获得响应也可以接受,因此联鼎软件认为对系统不可用的定义并无绝对,集群软件应适应硬件环境和应用类型的变化,可灵活设置。

故障应具有"等级性":

系统资源的变化,对业务系统的影响程度各不相同,也就是说权重不一样,对于Web服务器而言,网络链路的连通性,对业务的影响是最直接的,也是关键的,因此网络故障对于Web应用系统而言,应该作为最高级故障级处理,然而内存剩余量的高低,对Web应用系统而言,影响是间接的,是次要的,因此作为一般性警告响应就足够了。由此可见,对于不同权重的事件,作分级的响应是科学合理的。

故障应具有"推导性":

传统集群软件考量一个业务系统是否可用,通常情况下是检查必要条件,如果必要条件都具备,那么可以不严谨地推断系统是可用的,但该方法简单易行。

另一种常用的方法是应用插件侦测技术,用插件的感知结果状态衡量系统是否健康,该做法的优点是方法直接,结论可靠,但对于一个关键业务系统而言,当前能访问并不表示系统无故障,忽略了潜在风险。

联鼎软件认为对于系统故障的判定应该考虑显性因素和隐性因素,两种特性的故障综合分析,才能提高系统的抗风险能力。

故障应具有"参照性":

衡量一个业务系统是否健康,是否安全,是否可持续工作,联鼎软件认为必须有一套科学合理的安全评价体系。集群软件实时采集系统的各项运行指标,但其本身并不知道业务系统是否正常,或者是否存在潜在风险,科学合理的指标体系,是集群智慧大脑的判断标尺,有了它,集群不但能够准确掌握关键业务系统的健康状况,还能对潜在宕机风险发出警示,有效预报,防范故障于未然。