2012年10月28日,由中国计算机学会主办的 “2012年全国高性能计算学术年会”(HPC China 2012)在湖南省张家界阳光酒店召开。本届盛会围绕着高性能计算技术的研究进展与发展趋势、高性能计算的重大应用等主题展开,促进信息化与工业化的深度融合,为相关领域的学者提供交流合作、发布最前沿科研成果的平台,推动中国高性能计算的发展。
在本次大会上,国防科技大学杨学军院士作了《E级计算的挑战与思考》的报道,介绍了E级计算是超级计算领域的下一个目标,杨学军教授谈到,高性能计算机的计算速度每十年提高一千倍,大规模应用也表现出超高的E级计算机能力需求。
杨学军院士
杨学军院士认为E级计算的挑战正面临五个挑战.
访问墙:问题仍然是提升计算速度的第一大难题,处理器的处理速度和访问速度之间的不匹配,处理器单个引脚的信号传输速度和引脚受限。多核处理器的出现只是提高了计算速度,不但没有缓解访问问题,反而使其变得更加严重。
通信墙:超级计算的规模不断增加,互联网络对计算性能的影响越来越大,E级计算对互联网络提出了更高的要求,互联网络已成为制约超级计算机发展的核心因素之一。
可靠性:当性能性能由P级向E级扩展时,保存全局检查点的时候可能达到甚至超过系统的MTBF!
能耗墙:ITRS估计高性能CPU的功耗将达到120~200W。世界排名第一Blue Gence的能耗达到7.8MW,如此发展下去E级系统功耗将达3.5GW,超过三峡水电站2008年平均供电能力的3分之1。
上述四堵墙,严重制约并行计算的可扩展性,并行计算机课扩展性度量模型指导着计算机的发展。解决计算机的并行可扩展性的难点在于要素的量纲不统一,事件离散,应用千变万化,系统、技术的千差万别。
要素的量纲不统一,归约到时间量纲,通过“容错开销”的度量,将可靠性问题的描述统一至时间量纲,进而将可靠性引入加速比公式,对可靠性墙进行量化研究。现有容错方法都会引起可靠性墙,必须研究故障影响系统的规律,探索新的方法。
杨学军院士表示,通用处理器+专用处理器是异构体系结构的一种解决方案。给予流处理的异构并行体系结构,大规模科学工程应用的可流化理论,大规模科学工程应用的高效流化方法。在可流化路理论和高效流化方法的基础上提出了CPU和流处理器相结合的异构融合并行体系结构。
硬件技术的发展在缓解通信墙、可靠墙、和功耗墙的同时,加剧了编程墙。杨学军院士谈到,提升抽象层次没实现面向领域的问题求解框架,实现跨领域协作,零编程或少编程,解决编程墙问题和底层框架优化技术缓解访问墙、通信墙问题。