引子:本文谈论的是中国超算发展近况,以及超算系统闲置和浪费较大情况的解决之道。
最近又发生了一件让国人特别骄傲的事情。那就是基于中国”芯“的超级计算机“神威太湖之光荣登全球之首,最新一期全球超级计算机500强中,来自中国的超级计算机也首次超过美国,达成了167台全球领先的位置。
中国“芯”终于梦成真,是具有战略意义的大事件
2015年年初,美国政府禁止其企业向中国出口与超级计算机相关的技术,更是让中国人意识到核心技术不能受制于人。”一年之后,“神威太湖之光”夺得全球超算冠军,向世界正式宣告中国“芯”的到来。
新一期全球超级计算机500强榜单上月20日公布,使用中国自主芯片制造的“神威太湖之光”登上榜首,这是中国“芯”走上自主之路的里程碑式事件,意味着中国掌握了超算制造的主要核心技术。中国超级计算机拥有中国“芯”终于不再是梦想,而是成为了再真实不过的现实。超级计算机是国家科研的一个基础工具,为解决经济、科技等领域一系列重大挑战提供了重要手段,对提升综合国力具有战略意义。
为啥这么说呢?
因为超级计算机是科学家用来解决人类重要问题的工具。所谓超算,就是计算能力特别强的计算机。有效使用超级计算机,可在更短时间内完成重大研究。最典型的应用场景是算天算地,比如生命科学、流体空气力学、仿真、气象、气候、环境等等,还有一些国家级战略领域:
比如说,应用于情报机构。
美国国家情报机构的“棱镜”计划显示,美国花巨资收集各国的隐私,其中包括普通民众的海量信息。这意味着需要有巨大的信息处理能力。特别是反恐等情报具有时效性,需要从天文数字的信息里尽快筛选出有价值的情报,这只能依靠超级计算机。
比如说,应用在核武器安全。
在美国,加利福尼亚的利弗莫尔国家实验室、新墨西哥州的洛斯·阿拉莫斯国家实验室、圣地亚国家实验室、橡树岭国家实验室都参与了利用超级计算机维护美国核武库安全的工作。由于美国大批核弹头已经接近服役年限,而囊中羞涩的五角大楼希望延长其服役周期,这就必须通过超级计算机模拟预测这些核武器何时会失效,哪个部件需要更换。
超算应用范围原地踏步走,杀鸡焉用牛刀乎
作为战略性计算资源自然要应用在关键场合。但是,随着超级计算机性能不断提升,数量越来越多,能耗越来越大,而应用范围却并没有随之变大,甚至几乎在上面说到的少数科学和工程计算领域原地踏步走。
这就是超级计算机在高性能与通用性方面一直存在矛盾。
过去,在每秒10亿次计算能力的时候,超级计算机主要是用于工程计算或者科学计算,但是到了百亿亿次计算能力时,已经很难有一个题目需要这么大的规模,传统的科学计算领域已经很难找到这样的题目了。正如媒体曾报道的,曾经多次蝉联世界500强第一名的“天河二号”超级计算机,利用率甚至只有40%。所以,超级计算机未来向何处发展是摆在我们面前最最重要的挑战。
与相对萎缩的超算市场相反的是,在云计算、大数据应用领域,对计算资源的渴求几乎是无穷无尽。不管是百姓还是政府、企业,都在从各式各样的云应用和大数据应用中获取计算和智慧的助力,这几乎可以被视为人类社会向下一阶段更智慧社会发展的必经途径。更何况基于人工神经网络技术的深度学习也是要基于海量计算资源,当一个个能够战胜人类围棋冠军的“AlphaGo”继下棋之后,相继走入人类社会,服务人们的生活、工作和生产,将是一派怎样场景。这一切的前提是,满足那些位于高端计算和桌面计算之间的众多对高性能计算有潜在需求的用户的高性能用户,他们将是超算世界最需要的中产阶级,以及超算应用向通用化全面发展的希望所在。
软件定义时代:
释放超算能量,让超算服务云计算,用云计算提供超算性能
大量被忽视的中间层(the missing middle of HPC)正在因为对自身产业向互联网+转型的渴望,以及对云计算、大数据、深度学习所能带来产业变革和商业价值的追求而拥抱超算。然而,缺乏超算人才、建设和维护成本高企,以及超算应用的复杂度往往让他们望而却步。而云计算正是应对这些挑战的最佳途径之一。
基于云计算理念构建的高性能计算(HPC)服务和传统的超算服务(如超级计算中心所提供的)将有着显著的区别:面向的是更广阔的用户群体而不是少量的高端用户。即HPC云应该使得用户无需任何的超算技术背景,他们可以在感知不到超算的情况下使用超算服务。这要求HPC云需要将并行任务、作业提交等超算技术细节对用户完全透明。
云计算对超级计算中心等传统超算服务者另外一个重要的意义是云计算的流行将使得用户尤其是企业用户更容易接受采购外部服务而不是自建系统来进行高性能计算。这种观念的改变对HPC云的影响甚至比技术更为重要和深远。
因此,在这个中国超算登峰造极,大量P级计算系统纷纷上线,但是并没有找到足够的用户,商业模式不够健全的当下。如何解决较大程度的超算系统闲置和浪费,云计算提供了一个可行的应对之道。
即基于云计算理念来构建超级计算中心,除了满足传统的或现有的超算用户需求外,更重要的是创造并吸引众多新领域的用户。由于国外现有的超算中心大多由研究机构(如美国三大实验室、各国教育或科技部门等)兴建,主要面向本机构内的科研用户;而我国的超算中心主要由地方政府主导,对工业和经济发展承载着重要的责任,并且共享和开放的程度更高,因此发展HPC云理论上我国有着得天独厚的优势。
HPC in Cloud
intel与品高云的诚意之作,做普通高校用得起的超算
自2011年7月,品高云被推荐为intel云构建规范参考架构,推选加入intel Cloud Builders组织认证成员后,两者就在云计算和高性能计算领域展开深入合作,并推出了“HPC in Cloud”应用模式——它可以将高性能计算与云计算结合,利用云数据中心普通X86服务器构建高性能计算集群,无需购买昂贵的高配设备,减轻了后期繁杂的运维压力,大大节省了成本投入。
据悉,在HPC in Cloud解决方案推出同年,该方案就在在海南大学,并帮助后者实现了同时支撑教务应用和HPC科研环境的海大教育云平台。
【海大云,是海南大学2015年初建设上线运营的校内云平台,其建设方网教中心承担着学校各类业务管理系统和公共服务平台的运维工作,需要利用云计算解决IT资源使用不均衡且无法弹性变化等运维问题。同时,海大日益高涨的科研HPC需求还使网教中心需要考虑到校内高性能计算服务的提供。品高云的“HPC in Cloud”模式,让科研人员可以通过海大云快速获得计算资源,同时大大降低了使用门槛,助力海大科研创新。】
除了海南大学,此后,HPC in Cloud解决方案又在广州大学等高校中推广起来,并积累出不少适用高校科研环境的应用场景:
1、数值计算领域科研应用:为高校提供用于算法开发、数据可视化、数据分析以及数值计算等科研环境;
2、大数据处理计算集群:为高校提供数据挖掘与机器学习等需要MapReduce分布式计算集群环境;
3、材料可科学科研领域:为高校提供集群资源用于计算原子、分子及团簇等材料的结构参数、状态方程、力学性质等。
超算入云
值得一提的是,HPC in Cloud解决方案不仅可以利用云数据中心普通X86服务器构建高性能计算集群,也可以将现有的超算资源并入云中提供给其他应用使用。
这正是超算中心解决使用率问题的最佳解决方案之一。事实上,目前国内已经多个兴建中的秉承云计算概念的超级计算中心,只要将概念变为理念,并在实际建设和未来的运营过程中加以落实,那它们将会是未来中国HPC云的中坚,并会在全球范围内成为典范。
前方高能,预告一则与超算有关的活动讯息
旨在推动高性能计算实用化,促进中国云计算、大数据、深度学习技术研究的2016第26届广东省“品高高校杯”软件作品设计大赛正在启动中。
本次活动由广东省计算机学会主办,品高软件冠名,广东外语外贸大学思科信息学院承办,将于2016年10月29日(星期六)在广东外语外贸大学(大学城校区)举行。
打开链接可查看报名须知:
http://www.scholat.com/vpost.html?pid=34351
【更多行业资讯,请关注DOIT官方微信(微信号:doitmedia),关注科技与数据经济,洞察IT走向DT。】