深度解读 容错服务器是否有性能瓶颈?

在功能定位上,X86被定位于通用服务器,安腾被定位在关键业务应用服务器。如果进一步细分,x86又可分为单路、双路和多路服务器,对应英特尔的处理器是3000、5000和7000系列,此外,还有一个特殊的6000系列,它是7000系列在双路应用的延伸。其中,采用5000系列处理器的双路服务器是市场的主流,应用在大多数的应用场合,其价格也比较便宜,在万元左右。与之相比,采用7000系列处理器的多路服务器,价格要高出很多,被定位在高端应用,对可靠性有很高的要求的应用场合。目前,除了金融行业用户核心业务之外,越来越多用户开始选择x86服务器承担各种关键应用,其中高端的多路服务器成为了用户的选择。

为了进一步提升可靠性,采用两台相同型号、配置的多路服务器构建集群方案成为了普遍的一种选择。双机集群是一种由集群软件控制的软件冗余方案,但其中的一台设备出现故障的时候,由另外一台设备接替故障硬件工作,以期达到提高可靠性的目的。但在实际工作中,双机集群对管理要求比较高,即使切换成功,也还是需要一定的故障恢复时间,期间会导致业务中断,如果切换失败,所需要的故障恢复时间将更长,因此对于一些关键业务需求而言,双机集群方案不能够满足高可靠性的要求。

与之相比,容错方案是一个理想的方案。它是一种硬件冗余的技术,借助独特的锁步技术,从体系结构上对系统进行保护。容错不仅能够做到服务器级别的容错,还可以实现对内存、 I/O数据的容错。在双机集群方案中,如果一台服务器突发故障宕机,那么这台服务器设备中内存的数据,以及I/O中等待读写的数据,是没有办法进行同步保护的,只能够借助数据库数据回滚等软件技术进行重建,虽然不会给交易带来损失,但业务恢复、重建是需要时间的,这也是双机集群不能够保持业务连续的原因。

与之相比,容错技术可以确保处理器、内存、I/O数据,做到每个处理器时钟周期保持严格同步,因此,当单一功能部件突发故障时,业务不会因此而中断。这种情况下,虽然失去了容错,但系统不会中断,业务不会受影响。当更换故障部件时,系统恢复容错工作状态。但用户不采用容错服务器方案,其中性能瓶颈是一个普遍关注的话题。当前容错服务器产品主要是基于双路服务器,较之多路似乎存在性能瓶颈。

容错服务器厂商可以提供多路服务器解决方案吗?答案是肯定的。美国容错技术有限技术顾问高峰表示,多路服务器容错并不存在技术上的障碍。历史上,美国容错就曾经提供了多路RISC处理器的方案;目前之所以没有考虑x86多路服务器容错方案,主要是价格的考虑,用户往往很难承受。高峰表示,目前双路8核处理器,其性能相对于原来16路处理器的性能,可以满足用户的绝大部分需求。从用户实践看,容错方案并不存在所谓性能的瓶颈。这也是美国容错没有提供多路服务器容错的原因。他表示,不提供多路不是技术的原因,而是基于市场策略的选择,换句话说,没有提供多路容错的必要。

高峰表示,用户对性能的担心,有时不是真的来自性能,而是来自对可靠性的考虑。从产品角度,多路服务器较之双路的确具有更高可靠性,这也是用户青睐多路服务器的原因。然而容错方案的可靠性不是依靠产品本身的可靠性,而是从系统的角度,依靠体系架构来解决问题。从目前技术水平看,两台双路服务器,相同功能部件同时发生故障的概率是非常低的,因此,容错服务器完全可以满足用户对可靠性的要求。

除了容错之外,实际上,容错方案更是提供了可信计算。高峰表示,通常情况下,处理器计算不会出现问题。但作为电子器件,难免会受到各种因素的干扰,难免会产生高低电平的判断错误,计算机是依靠高低电平来判断“0”或者 “1”,一旦出现错误,这种错误是不易察觉的。也就是说,计算机也会犯错误。对于容错而言,它是借助“锁步技术”,对两台设备计算结果进行比对,只有一致才被认可,因此可以有效避免意外错误的发生,这是容错方案特有的性能。对于容错系统的用户而言,可信计算可算是一种增值服务,是对用户高可靠性的一种额外奖赏。