刀片服务器在HPC领域的应用前景

      各位来宾下午好,非常高兴分享一下我们关于刀片服务器高性能应用的经验,我本人来自于清华大学计算机系的,高性能计算应用很广,今天我讨论的是做科学与功能方面的高性能计算机,就是采用一些并行程序,这里举了几个例子,比如空气动力学,天气预报等等。几个处理器在同时运行一个程序这样才能加强处理器的性能,我主要讨论这些问题。


      高性能计算机与普通计算机有什么不同呢?第一个是系统的规模越来越大。现在世界上最快的机器是IBM生产的,它有13万个处理器,这样带来什么样的结果呢?就是很容易出故障,就是高性能计算需要故障率是很低的。第二个是对网络要求比较高,下面有这样一张图,这是用Intel的工具把一个并行程序分开来,大家可以看到横着的都是一个一个处理器


      可以看到通信是非常频繁的,也就是说高性能计算的程序对网络的要求是很高的,可能现在数据处理千兆以太网可能就不够了。第三,单点故障会影响整个程序,在执行过程中只有有一个CPU出现故障的话,如果没有做特殊软件可靠性处理的话,整个程序就会失效。大家想想过去石油方面的程序一算要算一个月,如果算到第28天的时候有一个程序不可靠了,那就需要重新算,单点故障会影响到整个并行应用的运行。


      高性能计算会给我们做高性能计算系统带来一些挑战。首先耗电特别大就会带来一些问题,现在有关部门提了一个很大的问题,他们买机器的钱国家给批了,但是电费、空调运行的钱国家一直没有批,所以在和国家发改委讨论有一大部分钱是用于机器运行的。所以低功耗的版本确实可以使制革的不成本大大降低。


      第二,不光是本身耗电多了,在空调方面也是需要很多的电把热散出去,这也是一个很大的挑战。在05年我们测试曙光4000A的时候,当时只能测320个节点,也就是没有把全部的节点都测掉,这还是相当于我们做验收测试的时候做的,这是由散热问题导致的。另外一个问题是机房的面积。


      右边这个图是在全球TOP500企业里面处理器的个数是多少,这上面表示的是大致从128到2048个处理器,我们看到最下面的128k,就是说系统规模确实是非常的大。


      高性能计算节点运算非常的频繁,第一要做一套专用的计算宽带网络,整个这套系统里有存储网络,这又是一套网络,除了这些以外其有一个管理网络。另外还有键盘、鼠标控制这些机器,如果按照传统方法做的话至少需要4套网络才能实现,我本来想照张照片机器后面这些线为什么联起来乱了,因为一些原因不太好照,所以没有照出来,就是说这些线是很混乱的。这个结果是什么呢?故障是跟你的复杂度成正比的,你知道这些都是潜在故障的源泉。


      我这里有一张图,横着和竖着是两个进程,比如说左上角就是通信1和通信2的延迟,大家可以看到还有一行红色的,代表的是某一个进程和其它进程的延迟都是比其它很正常的延迟大,实际上这个网络不是不通,网络是通的,但实际上就是比较慢。这样大家觉得对一般的应用不是很严重,但是这在高性能计算里面是比较严重的故障。


     我们讨论了高性能计算对系统的需求和挑战以后,我们来看一看刀片服务器能够给我们提供什么样的好处。首先第一个好处刀片服务器的密度比较高,可以节省机房的面积。这里我们有一套HP Bladesystem C-Class刀片机箱,有10U的高度,这样可以插16个BL46O刀片,在空间上就可以节省40%,这是很明显的。


      第二,新一代刀片服务器机柜里面集成了供电和冷却工作,在整个机柜里面把风路和供电都设计好了,这样的效率会比较高一点,可以节电约20-30%。同样如果在耗电方面降低了这么多,在散热方面也就降低了一些,这样使得整个机房的维护性都提高了。


      第三个优点,刀片服务器在背板上集成了交换网络,所以线缆的数量是大大减少的。这张图,那么这类的问题就可以减少了很多,然后还可以提高部署速度,在背板上就可以把这些很好的管理起来。


      另外还有一点,其实做电信的朋友都很清楚,机架式服务器都是横着放的,为什么刀片都是竖着放的?电信有者路由器的老师准备跟我讨论过这个问题,刀片服务器竖着放可以降低存储的短路,同样在某种程度上就减少了故障。


      当然我是从学术的观点来谈的,虽然这是刀片的论坛,但也会讲讲刀片服务器的不足。一方面购买成本高,对小规模用户价格较贵。第二个刀片的不足是标准比较多,刚才Intel也说加入了很多联盟,那么这有一个问题就是这些联盟之间是不是互操作的,能不能很好的互相兼容,这是很多用户很关心的问题,我想这也是整个产业下一步发展需要关注的问题。


      包括HP PCLASS和CCLASS都不能兼容,所以标准怎么制定也是一个很大的问题。如果对小规模的用户来讲没有必要追求时髦,如果只有10个处理器以外的应用,现在传统的机架式的服务器我想应该能够很好的满足你的要求。


      刚才讨论了高性能计算的特点,也讨论了刀片服务器的优点和缺点,我们下面来讨论一下计算与刀片架构的区别。优点是密度高,节约机房面积,集成供电和冷却、省电。缺点,购买成本高,对小规模用户价格较贵,表针较多,互操作性和扩展性不足,这个问题对于高性能计算系统来说也不是很严重。


      作为一个结果我们还是来看在世界前500强的刀片服务器已经处于什么样的位置,HP的刀片系统没有进入前10名,但500性中有152套HP C-CLASS Blade系统,所以HP还是很值得一提的。刀片服务器在国际上已经被广泛的使用了,但是国内的采用还是要滞后一点。


     从高性能计算的角度我们对刀片还有哪些需求,能不能做的更好,我觉得有以下几个方面能够做的更好。第一是集成更高速度的互联网络,从原来的2G到今后的10G、20G,我们在现在的刀片服务器系统之间需要5微妙的时间。第二个是管理软件,一会儿VMware公司也会讲虚拟化技术,目前我们也在做这方面的一些研究,因为传统的高性能计算跟用户的接口是一个任务调度器,我们现在希望把虚拟化技术与刀片服务器技术提供起来,能够提供一个类似于专用的虚拟计算机。


      另外跟刚才我讲的高性能计算越来越大的趋势有一点相反的是,桌面的高性能计算,原因是当多内核系统越来越常见的情况下,刀片可以集成很多的密度,就是12个处理器、16个处理器的计算机也是可以做出来的。


      这有什么要求呢,第一就是高密度,这个刀片已经解决掉了。第二就是需要低功耗。第三个就是低噪音。我们实验室有准备的机房,因为我们经常做高性能计算,我们做媒体的一位老师,现在发现有的学生不愿意去实验室了,因为他那儿的噪音太大,所以在低噪音方面也可以做一些新的尝试。我想多核的发展本来是从低端拉到高端的过程,要想使得这个过程更加顺畅,我想应该把它从机房请出来,请到桌面上,那么低噪音是今后努力的一个方向。


      总结一下,一开始没有机架式服务器,那么机架式服务器提供了一个摆放的方式,那么在这基础上出现了刀片服务器,它的优点也是我们非常欢迎的,我们也说了刀片服务器的一些特点和高性能计算的特点,我们认为这两个是配合的非常好的,它以后会在这个领域得到进一步的发展。谢谢。