计算机的处理能力,与提供这一能力所需的电源动力、所产生的热量以及使处理器在可承受的温度下工作的降温系统,这四者之间有着直接关系。在处理器能力日趋强大,服务器内部空间利用率越来越高的今天,对于电源和散热的要求日趋迫切。在过去的几十年中,IBM在冷却系统方面做了有效的研究和革新,并已成为行业的领先者之一。如果我们来做一个量化比较,在相同空间内,在处理器能量一定的条件下,IBM的解决方案与其它友商的系统一样出色,甚至在一些情况下有更佳表现。
IBM刀片服务器在降温散热上的特色设计
现在随着服务器的集成密度越来越高,像刀片服务器和机架服务器等大量的普及使用,服务器的散热受到厂商和用户的高度重视。对于刀片服务器来说,高计算力需要多CPU,而CPU本身以及相关设备都需要刀片机柜具备强大的散热降温能力。IBM是采用类似“中央空调式”的整体散热技术,来帮助整个刀片中心进行降温。IBM刀片中心的散热系统设计,是用两个冗余的风扇对放置在刀片中心的14片刀片进行散热,就像大酒店的中央空调能够对各个房间同时进行散热。而且刀片中心的散热系统采用双冗余设计,如同配备了两套酒店的“中央空调”。
相比之下,一些厂商在进行刀片服务器设计改良时,会做一些非常简单的改变??只是简单地把一个服务器压扁,仍然为每个服务器采用类似“壁挂式空调”来帮助每个刀片单独散热,如同为房间中的每个人配备一个“电风扇”。但这样的设计可能会带来两个问题:一、我们需要一个非常敬业勤劳的电工每天去检修每个“壁挂式空调”、“电扇”是否正常,如果出现问题需要对每个散热设备进行更换;二、仅仅保证了刀片服务器自身,而忽视了机柜空间内的空气流通和整体散热。
IBM刀片中心采用整体散热设计和双冗余的高速风扇配置,则另辟蹊径、化繁为简,保证了机柜散热上的可靠、高效。不仅如此,IBM设计的这套双冗余的“中央空调”风扇还具有“变频”功能,在平时标准使用的时候,每分钟150立方英尺的散热风量。当它出现温度预警、部件故障时,或者一个风扇彻底坏掉,另外一个风扇会开足马力进行工作,每分钟出风量可以达到325立方英尺的散热空气流动量。如果有人在这个时候站在运行中的IBM刀片中心背面,会发现风量非常大,这个道理和站在酒店中央空调的主出风口一样。因此,双冗余的设计保证了不用担心单个风扇故障引起的服务器性能问题。
在散热系统中还设计了回流的主力器,空气的流动比较顺畅。冷空气从刀片中心前方进入,对热的两个部件CPU进行散热,然后对其次的内存、芯片、硬盘、直至这两个电源的部分,然后由这两个风扇把变热的空气从刀片中抽出来。
IBM刀片服务器BladeCenter散热系统详细图解
IBM的刀片服务器BladeCenter即为一个出色的例子。它可为用户提供占据空间更小,电源消耗更小,散热条件更好的服务器。特别是它大幅度减少了对电源耗能的需求,自然也减少了系统对于散热和冷却的需求。
1. 电源模块
BladeCenter刀片服务器的底盘具有一对200-240伏的热交换电源模块,安装在电源舱(Power Bays)1和2中,用于给所有刀片服务器模块和刀片舱1-6提供电能。此外,BladeCenter服务器还可以在电源舱3和4中提供第二对电源模块,从而为刀片舱7-14提供电能。作为热插拔的子系统,电源模块可以为处理器刀片和其它电子部件提供直流电压。两个激活的电源模块(在电源舱1和3)用于驱动插满14个处理器刀片的全配置底板、4个交换机模块、2个风扇以及2个管理模块。如果要提供全冗余的后备能力,则需要4个电源模块。
每一个电源模块提供了+12V的输出到刀片服务器的中间背板(mid-plane)上,BladeCenter刀片服务器所有的子系统都在该处获得电源供应。两个+12V的中间背板电源总线可用于冗余,并在冗余电源模块间对当前工作的电源进行输出负载的共享。
2. 电源利用率和散热
由于BladeCenter服务器近90%的电源负载都来自于处理器和内存上,每个底盘上的CPU使用率便成为决定实际负载中最为关键的因素。在服务器开机阶段所需电量的峰值不会超过CPU在100%使用时刀片服务器所需的最大能耗??来自CPU的影响远远大于其它动态负载。
电源需求和导致的散热取决于多种因素??其中,关键因素为运行温度、处理器和刀片的数量和CPU的使用率。
虽然很多统计数据都来自于CPU 100%使用率的基准下,但是大多数用户并不需要使他们全部的服务器运行在这样的满载负荷之下。实际上,很多操作系统和应用程序在这种情况下,运行效率反而会有所降低。每一个客户需要对其应用程序、操作系统以及IT基础架构进行评估,以确定使用率应达到怎样的程度。目前,IBM已制作一个有关配置的电子数据表格,它可根据客户所指定的CPU占用率,计算出所需要的电源负载(基于实际测量结果)。
3. 内置降温系统
IBM BladeCenter服务器的刀片单元不只是一个电路板。它安装在坚固的底盘之上并全部被机壳封闭,尽可能地保证了坚固和可靠性;此外,还可以改善空气流通和确高质量的连接。
冗余的矢量式冷却系统是一项领先的尖端技术。无论目前或是以后插入更多强大的处理器时,它可以把空气从机箱前部带至后部,确保安插全部刀片的底板达到足够的冷却效果。其主要的组成部分是两个转速达到 325 CFM的热交换冗余风扇、关键位置处的热量监控器以及管理模块。
BladeCenter刀片服务器中的每个刀片HS20都拥有蜂窝结构的前端外观,使空气从机架的前端流入;刀片服务器底板后部强大的双模块风扇通过促使空气从刀片的前端到后端流通来提供空气的动力冷却。CPU位于刀片的前端位置,从而获得不断的干净的冷空气。
两个弯曲叶轮散热风扇(配有百叶窗回流挡片)为刀片服务器底盘的所有部件提供了冗余冷却。室状蒸汽散热水槽用来冷却处理器。所有通过BladeCenter服务器底盘的空气估计总量,在0.7英寸H2O静态压差下是325 CFM(立方英尺/分钟)。由于带空气通过系统,325CFM包括了20CFM到底板的空气渗漏。
风扇的速度通过管理模块来控制, 而管理模块接收位于关键部位的热量监控器发来的信号(入口处的空气温度,系统设备温度等)。如果各个传感器的温度级别升高,风扇速度将会自动加快。在如下3种情况,两个风扇将都被设置到最大速度:
管理模块故障(或被移除)同时配有的冗余模块未能工作
在刀片或模块上的热量传感器发出热量警报
由控制模块测量的外部环境气温达到35摄氏度
如果风扇发生故障或被移去,剩下的一个风扇会自动提速以维持所需空气流量直至更换部件被安装好。如果一个风扇失效,其上的4片百叶窗状挡板将合上以封闭此单元,并通过另一个风扇维持有效的空气流通。此外,通过管理子系统所提供的告警,每个风扇会通过LED指示灯在故障发生时给出提示。
4. 系统管理器
每个刀片上整合有一个系统管理处理器,在管理模块上亦有一个服务处理器。通过它们之间的智能通讯,BladeCenter的自动系统确保了其高可用性。
BladeCenter的管理模块实施热量监控,包括:
机箱热量监控
处理器刀片热量监控
本地或远程热量告警
BladeCenter的管理模块实施风扇状态和控制,包括:
出现和故障检测
故障指示器和告警
基于热量的转速控制
BladeCenter服务器的管理模块监控电源状态并对电源模块进行控制,包括:
出现和故障检测
故障指示器和告警
电源故障重起控制