HPC走向简单化、低成本和高可扩展

高性能计算是企业计算的制高点,是金字塔上最闪耀的尖顶,但是高性能计算与企业计算的趋势永远是一致的,无论是MPP、SMP架构走向集群架构,还是从RISC架构占据主流到今天的X86架构一统天下,我们不难发现其中架构、系统发展趋势的合拍。可以说,高性能计算和企业计算互为参照互为榜样,共同走向的是同样的一个目标。

在企业级计算领域,我们看到开放、标准的趋势已经非常明显,而在高性能计算领域,我们同样看到开放与标准化是高性能计算的“标准”,虽然在TOP500的榜单上,我们还能看到不少RISC架构、独有技术的封闭式系统的存在,但是其所占的份额已经越来越少,而随着我们上文所提到的集群化、X86化的越发彻底,其只能说是偏安一隅毫无翻身的可能了。

但开放化、标准化并非是高性能计算系统发展的重点,从业界的趋势来看,高性能计算系统正在从从标准化、开放化更深层次的走向简单化、低成本和高可扩展,高性能计算开始越发重视绿色环保、低功耗、简单构建——甚至是桌面高性能计算——以及更高的可扩展性与灵活性。

也许有人会说,X86处理器与集群架构已经提供了足够的标准化、开放化,而且灵活性、可扩展性以及成本也远比十几年前、甚至是几年前更低,难道高性能计算系统还能够做的更加简单、低成本和高可扩展么?答案是肯定的,对于高性能计算系统来说,X86处理器与集群架构给予用户的还不够多,更多的特性、更先进的高性能计算系统还需要供应商的努力。

尤其是,当大家把目光投向Roadrunner或曙光5000A这样国外或国内最快超级计算机的时候,别忘了一点:就象TOP500无法代替整个高性能计算市场一样,性能、峰值速度也只是高性能计算系统众多关键因素里的一点。而且,在今天,通过“X86服务器+Linux+Infiniband”构建出一套十万亿次的系统并不难,更难、更重要、也更现实的问题是:如何让更多的用户用上、用好高性能计算机?

以戴尔为参照:实现更“舒适”的高性能计算

跟其他厂商动辄“国内最快”或“全球最快”的宣传口号不同,戴尔公司在高性能计算领域的战略似乎更加平实,甚至显得有些沉寂——虽然戴尔几乎每天都有一套集群出厂,但却似乎并不热衷于排行榜上的名次。在每年发布的全球500强榜单里,戴尔所建设的高性能计算系统最好的成绩,是2004年NCSA提供的Tungsten在TOP500中进入前十,名列第四位,但除此以外,戴尔在TOP500排行榜里面,却一直是徘徊在中游。

对于这样的现象,2011年时任戴尔大中华区公共事业部解决方案总监的王珊曾经这样解答媒体的疑问:“我们希望通过灵活、可扩展的解决方案来帮助用户简化高性能计算的部署和应用流程,从而降低成本和复杂性,让用户把他们的时间、精力、投资、人员用在自己的业务上面,这是戴尔在高性能计算领域的策略。”换言之,戴尔的策略,是尽可能多的通过标准化产品技术来满足大部分用户在“高密度、低能耗、可管理”方面的迫切要求,“简化高性能计算”——而不是去追求特别为1、2家客户所定制的产品。

这也是市场的需求。

由于新技术层出不穷,加上系统规模越做越大,很多用户都开始面临管理越来越复杂的难题,迫切需要用一种简易的方式来有效地利用这些新技术;同时,用户在购买、维护、能耗、升级、管理等方面的成本都变得越来越不可控;对此,很多用户都希望能够按需扩展系统,既能满足业务动态发展的需要,又能保护前期的IT投资。于是,随着集群系统和X86架构的发展,把那些复杂的、动态的、不可预知的、很难管理的因素通过高性能计算供应商简洁化,是用户最为迫切的需求,也是能否让高性能计算系统物尽其用的重要保障。

另一方面,通过可靠的打包式的系统供应商,简单化高性能计算系统的部署,也是高性能计算能否让用户“舒适”的重要因素。由于集群系统涉及到的软硬件厂商非常多,如果选择自建或与资信实力不足的厂商合作,在系统出现问题时很容易发生厂家相互推委的现象,用户需要“端到端”、“全包式”的服务——也就是说,从方案设计认证到安装部署和后期使用维护,用户需要面对的只需要是一家供应商,包括硬件、软件、应用调优和安全部署。

我们看到作为全球高性能计算市场排行第三的供应商——你很难相信在TOP500的TOP10中少有出现的戴尔,会在全球高性能计算市场占据第三的位置——而在部门级高性能计算系统领域,戴尔则更为靠前的排名第二。

以戴尔为参照,我们或许会看到如何构建更为“舒适”的高性能计算的方法:在高性能计算领域,戴尔同样提供Pro-Support服务,这项服务包括了“需求研讨会与分析评估、系统方案设计、工厂预安装和现场实施、后期应用技术支持”在内的一条龙式服务,同时,戴尔的高性能计算设计与测试实验室可以完成从8个节点到256个节点的大中小规模集群的集成,同时根据用户自身的需求(如计算密集型、内存敏感型或I/O密集型)对性能、软硬件兼容性等方面进行测试认证,真正做到“开箱即用”。

而更重要的,是戴尔为了提供具有高可扩展性的产品,坚持所有的产品技术都是基于开放标准平台,产品方案设计时对前一代产品的互连互通有充分考虑,所以所有戴尔的高性能计算系统在灵活性和可扩展性上有着天生的、无可比拟的优势——戴尔是从上世纪90年代开始参与到高性能计算市场中来的,从过去10年的一些标志性事件可以看出,戴尔一直在走标准化的道路,这跟IBM等其他厂商大力推广小型机、专有UNIX操作系统、专有互连架构是完全不同的道路,但与上文所述整个高性能计算市场的趋势却是相符合的:X86的标准化服务器系统占整个高性能计算的比例越来越高,在TOP500中的比例已经超过90%,而戴尔也正是在这样的趋势下,成为高性能计算市场的领导者的。

今天的高性能计算的应用的领域是更加的广阔,应用的领域也是不断地,应用和渗透到小型机的市场,而且也有更多的软件厂商也加入到支持高性能计算硬件架构上。另外随着软件转向MPI、windows集群的成熟,(高性能计算)使用的门槛也是在不断地降低,使更多的用户愿意去尝试使用高性能计算的解决方案。

开放、标准的戴尔高性能计算实现之道,显然更适应未来高性能计算的潮流,而已经在这条道路上走了十余年的戴尔,获得如何高的市场份额,也就不足为怪了。

高性能计算走向云端:二者结合更好更快

高性能计算与云是否有结合点?答案再次是肯定的,在这个以融合为背景的大时代里面,高性能计算与云的结合将会大大提升云计算与高性能计算的发展。

事实上,对高性能计算(高性能计算)而言,云计算并不是一个新的概念。事实上,已经发展近30年的超级计算中心也是一种早期的云计算模式:昂贵的计算资源集中部署,多个领域的用户通过互联网远程使用计算服务并依据使用量支付费用。但这种高性能计算服务和当前所谈论的云计算又有着一些明显的区别,如没有充分采用虚拟化技术,没有良好的用户界面等。

云计算将扩大高性能计算服务的范围。随着虚拟化即时的提高,通信延迟降低,紧耦合的计算将在更大范围内具有吸引力。特别是位于高端计算和桌面计算之间,存在众多对高性能计算有潜在需求的用户。

而基于云计算理念来构建超级计算中心,除了满足传统的或现有的高性能计算用户需求外,更重要 提创造并吸引众多新领域的用户。美国德州先进计算中心(TACC)的Edward Walker对Amazon EC2上高性能计算应用的性能表现进行了研究,应用选择常用的基准测试程序NPB,测试结果表明:几乎相同的硬件条件下,对OpenMP版本的8个测试程序EC2性能下降7%至21%不等,MPI版本性能则下降40%至1000%不等。

除此以外,云计算的易用性会影响传统的高性能计算计算模式,传统的排队批处理方式很难实现按需即时响应的科学计算,On-demand的云计算给高性能计算提供了更易交互的计算模式。如同几年前用大众化的PC服务器搭建集群以及最近用GPU加速科学计算一样,云计算对于高性能计算也是一次模式转变。

事实是,有几个关键因素促使企业考虑实施云计算,这些因素可以帮助企业削减成本,为内部用户提供更好的服务:首先,基于云的高性能计算是按使用量付费的,客户可以按照应用程序的运行时间或者按使用存储和数据传输服务的时间支付费用;第二,云为高性能计算提供近乎无限的基础架构,几乎可以实时享用基础架构;反过来,没有工作负载时,基础架构可以缩回到近乎零资源;第三,云计算能够让高性能计算根据工作负载配置资源,可以根据工作负载,随时分配操作系统或服务器的类型,大幅改进了资源配置方面的灵活性。因此,在未来,我们会看到高性能计算与云计算发生越来越多的结合,从而双向的促进高性能计算与云计算的发展。