入局高性能计算,青云将给市场注入怎样的新活力?

2021年底,青云科技宣布入局高性能计算领域,听到这一消息,不得不说,还是有点意外的。

提起青云,许多人首先能想到的是,这是2021年刚上市的企业级云服务公司,它既有公有云,也有私有云/混合云,作为一家中立的云服务商,身上总有一股除旧布新的气质,在技术难度较高的存储以及容器技术生态上都有深入布局。

11月23日,青云宣布发布QingCloud EHPC,正式进入高性能计算领域,那么,青云会为高性能计算领域带来哪些新气象呢?

提起高性能计算,普通人首先能想到各种抽象的模拟图片,对于天气预测、地质勘测、生物基因、蛋白质组学、化学工艺领域的作用也有模糊的认识,高性能计算的重要性毋庸置疑,与其相关的都是前沿领域的探索,但高性能计算本身的应用在新趋势下逐渐暴露出新问题。

准确地说,在云计算兴起的大背景下,高性能计算作为一种重要资源,出现了一些不合时宜的现象。

高性能计算云化发展

高性能计算云化发展不是新话题,在云时代下,传统高性能计算系统用户的痛点越发明显。比如,用户总在抱怨资源不够用。

因为,高性能计算会将大规模的运算任务拆分成很多的小任务分发到各个服务器上并行计算,再将计算结果汇总成最终的一个结果。对于使用者来说,由于需要较长时间运行一项工作负载,资源多一些就能减少一些等候时间。

但超算平台运营者总会担心浪费的问题,准备的资源越多,浪费的可能性越大,背后实际上反映的是资源弹性不足的问题。

又比如资源使用流程繁琐,实际上是资源调度问题。也有一些用户对于高性能计算资源需要申请的做法表达了困惑。明明是云计算时代了,明明自服务就能完成的操作,为什么还需要繁琐的申请呢?

公有云最大的优势就是资源弹性,而且,自服务的使用模式也提供了极大便利。带着对于云计算技术优势的理解,青云入局高性能计算,让云计算的优势与高性能计算系统相结合。

这种结合对于高性能计算系统的运营者和最终算力的使用者都能带来极大便利。

用户可以以自服务的方式,付费使用EHPC资源

QingCloud EHPC以弹性灵活的方式,让用户像使用普通公有云一样使用高性能计算资源,既避免了资源浪费,又让有算力需求的人以最便捷的方式获取资源,应对突发需求。

传统超算中心对外服务能力水平普遍比较低下。除了资源获取流程上的差异,在如何以支持多租户的方式同时服务多个用户,如何避免可能造成的安全问题方面,也都是云计算所擅长的领域。

青云QingCloud 云平台&服务部高级总监陈海泉表示,EHPC平台不仅可以帮超算中心私有化部署超算云平台,让超算中心自己运营,还可以连接全网算力提供外部资源,支撑突发需求,减少或避免排队。当超算中心资源空置时,也可以对外出售算力增加运营收入。

青云希望与更多的超算中心合作共建算力共享的算力网络,这是青云为超算带来的新变化,但也远不止于此。

推动超算与大数据和人工智能结合

随着大数据和人工智能等工作负载的兴起,高性能计算要承载更繁重、更多样的计算任务,需要更高的计算精度和更大的计算量,更大的数据量,更多样的软件运行环境,传统超算中心借助云平台的优势才能更好地应对以上挑战。

现在越来越多的场景,比如核酸疫苗和核酸药物的研发场景、金融风控场景,都需要高性能计算与大数据以及人工智能技术相结合,这些场景普遍依赖于更大规模的数据集,需要更好的数据存储。

然而,结合实际应用来看,高性能计算中心的存储系统的技术演进步伐比较慢,许多都是以开源的Lustre并行文件存储为主,数据存储方面不能满足大数据的需求。

同时,原有的计算架构也无法很好地承载MapReduce这种纯粹的大数据业务场景,而对于机器学习负载,特别是对于训练场景,对于在GPU方面的需求,传统超算中心也无法满足。

青云提供的EHPC超算平台—— QingCloud EHPC让超算支持人工智能、大数据等各种新的业务场景。

对于常见的仿真和建模场景,青云提供了低延时、高带宽的InfiniBand网络,高速并行文件存储以及CPU/GPU的算力组合,不仅能支持大规模求解运算,还能提供GPU桌面进行图形前后处理,完成一个闭环的业务场景。

对于大数据业务,QingCloud云平台可提供容量达245PB的对象存储,配合计算节点,可用于大规模数据处理和分析。同时,计算节点到对象存储还配备了1.6Tbps的网络带宽,能够保证大数据计算所需的性能。

对于人工智能训练场景,青云可提供算力达850PFlops的A100 GPU资源池,同时还有全闪存的并行文件存储系统,结合容器技术,提供性能极致优化、轻量便捷、开源开放的人工智能平台。

云平台不仅有丰富多样的计算类型,也有多种存储服务,用户可以按照自己的业务来选择合适的存储类型,在虚拟化技术的加持下,用户可以快速获取所需的运行环境,并且可以随时切换 化学工程、生物医药、大气海洋等行业软件平台,充分利用超算中心的硬件资源。

此外,青云还提供了300多款软件,覆盖分子生物学、新能源、新材料、大气海洋环境、地球、物理等多领域,像应用商店一样方便安装和使用,满足各专业领域的需求。

最大可能在满足多数用户需求

青云作为高性能计算市场的新玩家,在用云技术改造超算的资源服务模式,为满足行业用户的需求,在技术方案层面做了许多周到的设计。

笔者注意到,青云QingCloud EHPC提供了两种集群,一种是共享集群,共享集群照顾了用户原有使用习惯,按照机时的方式排队使用,用户进来提交作业即可,计时收费。

另一种是独享的自建集群,自建集群按照云的方式创建集群,用户拥有较高的管理权限,用户可以自由安装各种软件,可以进行各种定制。

当用户使用QingCloud EHPC时,可以在五分钟之内创建完成集群。集群创建完成后,用户可以提交作业相关的资料,当用户数据比较多时,可以开启弹性公网IP服务,通过提升上传带宽快速上传,如果有涉密或者超大型文件,也可以以快递U盘等方式传递数据。

EHPC集群的节点有四种,一种是登录节点,也就是用户的管理端;一种是管控节点,负责作业分配调度;一种是计算节点,计算节点又分成CPU计算和GPU计算以及裸金属计算三种,为部分场景准备了物理服务器,所有计算节点都有弹性伸缩的能力。

第四个节点是QingCloud EHPC的一个特色服务,很好、很强大,叫做GPU可视化节点。

它提供了计算过程可视化的能力、实时查看的能力,监测作业是否正常运行,是否达到预期,过程中就可以决定是否要暂停作业、取消作业,是否调整参数,是否重新运行作业。

QingCloud EHPC在CPU、GPU等计算资源、网络资源以及存储资源上都有较高配置,有丰富的软件,还有一些优化性能表现的算力挖掘程序,其本身在优化上已经有了较高水平,用户无需进行太多基础设施层面的调优,无需关心运维,只需放心大胆的用就可以了。

青云EHPC产品经理苗慧表示,QingCloud EHPC是基于青云公有云IaaS、PaaS 层基础架构,以国家超算中心算力资源为基础,提供的从上云计算到结果产出的全流程SaaS化计算服务,帮助工程师、研究人员突破本地HPC基础设施的限制,快速开始云上创新。

作为一种公有云服务,本身具有较好的交互使用体验,各种运维和安全方面也无需用户关注,能满足各种用户的需求。

据苗慧介绍,目前,一些科研院所、高校的老师、科研团队等都是青云QingCloud EHPC的目标用户,越来越多的企业研发相关场景也在使用青云的超算服务,未来还将继续扩大用户群体,比如新能源/新材料、芯片制造等行业用户。