10月26至29日,一年一度的高性能计算领域盛会“2011年全国高性能计算学术年会”(HPC China 2011)在山东济南山东大厦召开。26日举行的是国际高性能计算咨询委员会2011中国研讨会(HPC Advisory Council China Workshop 2011),IT168作为独家网络支持媒体为您做现场报道。
▲HPC China 2011专题
北京并行科技有限公司(Paratera)CTO陈健作了《从Linpack年代到真实应用性能年代》的报告。
陈健谈到,虽然人们一提及高性能计算机时,往往会用Linpack测试值来衡量HPC机器的性能,如TOP500排行榜,但实际上用户对这种衡量标准并不满意,因为它在高性能计算机的选型、优化过程中无法提供有效的参考。凭借在联想做了3年方案、在英特尔做了5年调优的经验积累,陈健对用户真正想要的东西很清楚。
▲
在此次会议上,他介绍了并行科技公司新推出的Paramon应用运行特征收集器、Paratune应用运行特征分析器等性能监控管理工具软件,并表示其目的是要让高性能计算机的性能可以“看得见”,让HPC用户和从业人员可以更简单有效地掌握机器性能,从而快速采取相应的对策。
陈健从最终用户的需求出来,指出了当前高性能计算性能优化面临的几个重要问题:
一是绝大多数实际运行的软件只发挥硬件很少的计算能力,问题是如何快速准确测量当前软件发挥了多少计算能力?
二是软件优化技术太复杂、太耗时,问题是如何让调优普及化,如何用20%的时间挖掘出80%的优化空间?
三是高性能计算应用为先,需要提供匹配关键应用的硬件方案,问题是如何快速确定应用对硬件各组件的需求情况?
针对上述问题,北京并行科技有限公司提出了“快速应用运行特征分析方法”这一解决方法(包括面向最终用户的Paramon应用运行特征收集器和面向软硬件厂商开发人员的Paratune应用运行特征分析器),尽可能让高性能计算机实际运行过程中的所有性能数据都能“可视化”,从而帮助用户更有效地实现系统的选型、配置、调优与管理。
▲
据介绍,其中,Paramon应用运行特征收集器,通过实时监控机群管理/登录节点、计算节点、IO节点等服务器的处理器、内存、网络和存储性能数据,提供机群系统中应用软件随时间变化的运行特征。Paramon软件面向IT管理人员、硬件管理员、机房管理员等用户角色,通过实时监控、采集机群中服务器的CPU、GPU、内存、网络和存储等关键设备的系统级和微架构级性能数据(Gflops、Memory Bandwidth、Vectorization、CPI、GIPS),以图形化的方式直观显示,快速反映提供机群系统中应用软件随时间变化的运行特征,同时了解硬件环境的运行现状,快速了解机群中隐含的硬件问题,从而在问题发生时第一时间给出解决方案。
▲
▲
▲
Paratune应用运行特征分析器,则可以分析Paramon生成的.para应用运行特征文件,显示应用运行时各节点中处理器、内存、网络和磁盘的性能数据,重构机群应用运行过程,高效、准确地描述应用的运行特征。硬件厂商机群方案设计人员根据用户应用运行特征图,可以清楚的了解应用在运行的各个阶段,对硬件设备处理器、内存、网络和磁盘等各部分的需求情况,基于这样准确的数据分析,方案人员可以提供有针对性、真正符合客户应用需求的HPC机群设计方案。应用软件优化人员根据用户应用运行特征图,可以准确了解用户应用程序的运行状态,了解程序运行热点段对各种硬件部件的依赖程度,快速定位系统性能瓶颈,找到应用优化的空间和方向。
▲
陈健表示,目前Paramon应用运行特征收集器在全国已经安装了100套,用户可以在www.paratera.com上直接下载试用。