当我们走进影院欣赏美丽悲壮的3D版《泰坦尼克号》、欢乐幽默的《非常小特务4》被逼真的画面所震撼时;当我们收到卫星传回的精确数据及时采取措施,减少自然灾害带来的损失感到震惊时;当我们仰望天空、试图探寻宇宙奥秘,看到一张张神奇星空照片时;背后都是高性能计算(HPC)在默默支持。
高性能计算(HPC)正给我们的生活带来前所未有的改变——它使我们的工作更具效率:能在极短的时间计算出精准的数据、做出可视化的图像;使我们的娱乐更加丰富多彩:3D影片、游戏更加妙趣横生;能让我们更加了解自己:DNA测序、医疗成像;挽救更多的生命:天气监测、快速制成能预防、治疗各种疾病的药物;探索我们地球以外令人振奋的新奇事物。高性能计算正带领人类从“信息时代”走向“知识时代”。
越来越多的企业在利用高性能计算对海量信息进行运算、分析解决我们遇到的难题、开发出更奇特的产品。高性能计算给各行各业带来了发展的新机遇,也为高性能计算产品提出了更高要求:
安全可靠
高性能计算的计算规模达到了百万亿次(TFLOPS)甚至千万亿次(PFLOPS)的数量级别,采用的处理器数量也达到了上万个,这给系统带来了加大的复杂度,但他们所面临的任务必须是上时间运行的关键运算,一旦发生故障将造成巨大经济损失和时间、能源的浪费。在实现高性能的同时必须确保系统的高可靠性。
这需要系统能通过避错和容错技术提高系统的可靠性。避错是指通过采用高可靠等级的硬件元器件防止错误产生。容错是指在系统出现错的的情况下还能继续正常工作。容错及粟通常采用静态容错和动态容错两种机制。静态容错通过通过硬件冗余的错失使故障响应在输出前被隔离或矫正。动态冗余采用标准模块配置,但一旦检测出故障体统能进行重组或恢复,使系统正常运行。在线替换的能力也必不可少,需要可支持在线替换的不见有运算单元板、磁盘、风扇、电源、I/O卡等。
开放平台
在高性能计算领域,硬件、软件企业众多。硬件就有呈三足鼎立之势——英特尔、AMD和nVIDIA,这是软件也面临了三条路的选择。在这群雄并起的的势态下业内却一直看好了异构众核模式——CPU+GPU。Intel新一代产品在高性能计算方面做出了很大努力,英特尔公司将于6月20日在戴尔举办的高性能计算行业应用实践交流会上将详细讲解英特尔在这一领域的重大改变。
CPU的优势在于逻辑运算,而GPU的优势在于浮点运算,也就是串行算,现在的科学计算的大多数模型都归结为求矩阵特征值与线性方程组求解问题。很好地利用GPU的并行运算特性将大大提高计算效率。在20日的高性能计算行业应用实践交流会上Nvidia也将向您详细阐述GPU在高性能计算的应用趋势。然而异构众核模式也问题重重:显式并行工具与隐式并行工具各有优劣,nVIDIA主推的CUDA以及AMD的OpenCL都属显式并行工具,但需程序员手动处理并行性,分配内存和协调线程间的同步问题,这与集群上的MPI性质相同。难学难用的显式并行MPI仅在HPC社区内流行。隐式并行工具则提供了相应的工具和编译器,能部分解决这些问题,但处理实际复杂算例的能力还有待进一步完善和提高。
可以预见的是,不论从智能手机还是超级计算机,都将采用异构众核计算的模式,如何能够“软硬通吃”将成为在高性能计算领域成功的关键。
可扩展性
HPC是个系统工程,不仅需要处理器,存储技术还需要有网络的协同处理,三大方面的可扩展性都成为制约整体性能的瓶颈所在。单机的强大无疑能使整体的系统更加强大,拥有在各环节的均衡扩展才能使整体系统不论在性能和整体拥有成本上取得优势。使用标准化、低成本的部件象搭积木一样构建高性能计算机将成为HPC集群的发展方向。
高性价比
高性价比是在当前经济形势下个行业用户关注的焦点。应用于高性能计算的刀片服务器拥有的计算密度是其主要优势。它对机房的空间要求更低,并且有效降低了系统功耗,对系统空调等散热系统的要求也相对降低。刀片柜中的电源将由多个刀片共享,所以会使用高效率电源,减小了系统功耗,同时产生的热量减少,减少了冷却系统的耗电量。
HPC选型
随着高性能计算在各行各业的广泛应用,选购HPC产品逐渐被企业CIO/CTO提上议程,然而除了要关注HPC高可靠性、开放平台、高扩展性、高性价比以外,企业的真正应用才是HPC产品选型的主要指导方向。虽然大家通行的衡量指标是比较Linpack值,但未必高Linpack值的产品性能就适应所有应用需求。HPC是个系统,它包括的浮点运算、扩展性、内部存取等各个环节,而Linpack作为HPC基准测试程序之一的测试是无法真正反映HPC系统在真实运行应用时的性能。对于高时钟频率但内部存取性能平平的服务器HPC系统在石油油藏模拟、气象分析等应用上就不会的到令人满意的效果。石油石化行业高性能计算解决方案及成功案例和生命科学、气象行业的高性能产品采购差异性将在戴尔的行业应用实践交流会上向您具体展示。