(1)冗余技术
冗余是重复配置系统的一些部件,当系统发生故障时,冗余配置的部件介入并承担故障部件的工作,由此减少系统的故障时间。冗余系统配件主要有:
电源:高端服务器产品中普遍采用双电源系统,这两个电源是负载均衡的,即在系统工作时它们都为系统提供电力,当一个电源出现故障时,另一个电源就承担所有的负载。有些服务器系统实现了DC的冗余,另一些服务器产品如Micron公司的NetFRAME 9000实现了AC、DC的全冗余。
存储子系统:存储子系统是整个服务器系统中最容易发生故障的地方。以下几种方法可以实现该子系统的冗余。磁盘镜像:将相同的数据分别写入两个磁盘中;磁盘双联:为镜像磁盘增加了一个I/O控制器,就形成了磁盘双联,使总线争用情况得到改善;RAID:廉价冗余磁盘阵列(Redundant array of inexpensive disks)的缩写。顾名思义,它由几个磁盘组成,通过一个控制器协调运动机制使单个数据流依次写入这几个磁盘中。RAID3系统由5个磁盘构成,其中4 个磁盘存储数据,1个磁盘存储校验信息。如果一个磁盘发生故障,可以在线更换故障盘,并通过另3个磁盘和校验盘重新创建新盘上的数据。RAID5将校验信息分布在5个磁盘上,这样可更换任一磁盘,其余与RAID3相同。
I/O卡:对服务器来说,主要指网卡和硬盘控制卡的冗余。网卡冗余是在服务器中插上双网卡。冗余网卡技术原为大型机及中型机上的技术,现在也逐渐被PC服务器所拥有。PC服务器如Micron公司的NetFRAME9200最多实现4个网卡的冗余,这4个网卡各承担25%的网络流量。康柏公司的所有 ProSignia/Proliant服务器都具有容错冗余双网卡。
PCI总线 :代表Micron公司最高技术水平的产品NetFRAME 9200采用三重对等PCI技术,优化PCI总线的带宽,提升硬盘、网卡等高速设备的数据传输速度。
CPU:系统中主处理器并不会经常出现故障,但对称多处理器(SMP)能让多个CPU分担工作以提供某种程度的容错。
(2)故障的在线修复技术
故障的在线修复技术包括故障部件可带电插拔和部件的在线配置技术。可带电插拔的部件如硬盘、内存、外设插卡、电源、风扇的热插拔,目前PC服务器中值得骄傲的技术是PCI的热插拔。康柏公司的PC服务器采用模块化设计,拆装不需任何工具,方便了在线修复,模块化设计将是今后的发展方向。
(3)集群系统(Cluster System)
服务器集群指通过特殊的软件和硬件支持将两台或多台服务器组成服务器集合,它的目的是减少系统的故障时间,提高系统的可用性。有两种服务器集群方法:
一种是将备份服务器连接在主服务器上,当主服务器发生故障时,备份服务器才投入运行,把主服务器上所有任务接管过来。
另一种方法是将多台服务器连接,这些服务器一起分担同样的应用和数据库计算任务,改善关键大型应用的响应时间。同时,每台服务器还承担一些容错任务,一旦某台服务器出现故障时,系统可以在系统软件的支持下,将这台服务器与系统隔离,并通过各服务器的负载转嫁机制完成新的负载分配。
PC服务器中较为常见的是两台服务器的集群,UNIX系统可支持8台服务器的集群系统,康柏的专用系统OpenVMS可支持多达96台服务器的集群系统。
4 其他技术
(1) 智能输入输出(Intelligent I/O,I2O)技术,
(2) 对称多处理系统(SMP),
(3) SCSI(Small Computer System Interface)接口,
(4) 光纤通道技术 ( Fiber Channel ) :
多年以来,SCSI是最常见的连接外部存储设备的接口技术,但是SCSI连接设备有物理距离和设备数目的限制,因此,各厂商自1999年起均看好并力推光纤通道技术,康柏公司在这场推广活动中扮演着领头羊的角色。光纤通道的传输速率为100Mb/s,系统组件之间的距离可长达500米,支持 Microsoft Cluster Server,可以集群更多的服务器设备。
(5) 纠错码(ECC)和服务器自动重启动(ASR)等技术