聚焦IDF:英特尔热管理工程师谈服务器散热

      服务器的散热永远是业界的关注点,在计算密度越来越高,电力消耗越来越大的今天,服务器,尤其是大量应用服务器的数据中心,散热问题永远“挥之不散”,现在,由于外部散热难以完全解决问题,而且散热效率较低,经常造成服务器内部局部过热,从而不能达到服务器散热的要求,于是越来越多的服务器厂商已经将服务器的散热聚焦于服务器内部。
  
      对于服务器散热来说,尤其是内部散热,单纯的增加风扇数量或增加风扇转速并不能很好的解决问题,风扇越多,转速越快,耗电也就越多,噪音也会越大,对于用户来说,耗电和噪音也是很大的问题,如果可以根据服务器内部部件的运行情况试试调整散热——尤其是风扇,那么服务器的散热效果非但不会打折扣,还会有效降低服务器耗电和噪音。 
  

  
      英特尔热管理架构工程师Kaleen Man女士为大家讲解了英特尔在服务器关键元器件散热中的技术,她表示2007年基于英特尔处理器的服务器已经对中央处理器(CPU)、北桥(MCH)、FB-Dimm内存全部提供了灾难过热保护、闭路循环保护(CLTT)和用于风扇转速控制(FSC)的传感器。也就是说,对于服务器主要容易过热的部件——处理器、北桥和 内存,英特尔都提供了基于传感器的温度保护技术。
  
      我们知道,英特尔的双核/四核采用了Bensley平台,而Bensley平台采用了全新的FB-Dimm内存技术,这是因为一方面考虑内存容量的可扩充性,另一方面考虑提升内存的性能,通过FB-Dimm内存上的AMB芯片来串行连接后面的内存,增加系统内存容量,通过串行技术可以将内存峰值带宽提高到21GB/s。FBDIMM的功耗非常高,产生的热量比较大,而FB-Dimm内存的性能与AMB芯片的工作温度有很大的关系,这对服务器的散热设计提出了很高了要求,要达到理论的内存峰值带宽,在FB-Dimm内存的工艺设计上Intel与各大内存厂商还需要下更多的功夫去改进。 
  

  
      针对于FB-Dimm内存的散热,尤其是其AMB芯片的散热,Kaleen Man女士讲解了针对FB-Dimm内存的热管理技术,英特尔将内存温度分为了三个阶段:AMB.TempLow、AMB.TempMid、AMB.TempHi。同时,为AMB芯片温度设定了四个散热阶段,其基本技术就是“内存工作闲时降低风扇转速,内存工作忙时增加风扇转速”,但是需要指出的是,CLTT散热阶段,由于传感器可能会有的5~6度左右的测温误差,于是当出现-5度误差的时候,可能现在的AMB温度已经进入了危险区间,针对于此,英特尔特别设计在此时,由MCH触发内存保护机制,从而避免AMB温度过高。 
  

      我们知道串行的FB-Dimm内存,可以过片上的AMB芯片来串行连接后面的内存,增加系统内存容量,于是就会有很多内存工作与同一平台上,但是有时候,整个内存系统只有几片内存非常繁忙并且过热,英特尔针对于此特别对每个安装的内存进行AMB温度寄存器优化,每个分支(Branch)有独立的热保护机制。对于如何进行闭路循环热保护CLTT的检测参数的设置,Kaleen Man女士表示,FB-Dimm内存的耐温性能、耗电值以及OEM厂商提供的厂商信息、最终用户希望的温度控制都是可以作为参考的,而且,优化的设置可以减少为保护内存而设置的保护带,提高性能并改善噪音。另外,内存上的用于风扇速度控制的AMB传感器是非常重要的一部分,整个内存的散热要根据其中最热的内存——即与触发热保护温度最接近的内存来决定风扇速度的加快和降低。
  
      在本次讲座中,Kaleen Man女士着重提到,英特尔将为北桥MCH提供全新的广发的热管理技术,在2007年将作为重点之一。同样的,MCH的温度也被划分为三个级别:TSFSC、Throttling limit以及Term Trip。这其中值得注意的是,如果北桥MCH超过热保护极限Throttling limit时,MCH将在0.5ms内将其与内存和I/O的传输切换到预设的安全值,即降低内存与I/O性能以保护系统不会因过热而出现物理损害。  

  
      当然,散热系统的实施是内存和传感器的整合,每一个风扇和传感器都可以相互连接,在2007年,将会有处理器、内存、北桥互连的负责整体散热的传感器,同时,因为温度读取会有一定延时,可能会造成读取温度不是实时温度的准确值。因此新的北桥MCH的温度控制,将会是整合的规模可扩展的温度控制。 
  

  
      对于处理器和MCH来说,灾难性的热保护是最为重要的,如果出现灾难性的过热,硬件设备往往会因为电子迁移现象、过热现象而出现物理损害。同时,由于可能出现的异常的散热失效,如散热系统故障,风扇停转,处理器、北桥和内存的Term Trip信号——即考虑误差修正的过热区间,将会精确的降低系统功耗,从而避免永久的物理损害,当然,Term Trip信号也会触发系统日志,从而为系统工程师的事件诊断提供帮助。  

      当然,英特尔提供了一整套完备的验证程序,以验证散热系统是否可以保证所有元件的热保护,系统工程师将就FSC进行数学建模工作,最终FSC在模型中达到一定值之后即可满足所有元器件的散热要求。同时,数值读取会有一定的传感器误差,因此过热保护临界需要防护带,因此内存的CLTT设定会有一定的范围界定。