11月24日,英伟达就“云原生超级计算”接受了媒体采访。
对于云原生,在我们牵头撰写的《2020行业云原生应用报告指南》中曾经有这样的表述:传统行业企业之所以被互联网企业无情碾压,在云原生技术应用上的落后会是最要的原因,由此可见云原生技术的重要性。
也因为如此,英伟达“云原生超级计算”引起了我的格外关注。什么是云原生超级计算技术?与传统技术相比,云原生超级计算技术重点解决了哪些问题?适合哪些应用场景的应用?带着这样的问题,我参加了采访。
在采访中,英伟达网络亚太区高级总监宋庆春和英伟达网络技术专家崔岩对此也早有准备。
“不能把云原生超级计算技术进行切割,它是一个整体。” 宋庆春开门见山地说。
这里说的切割,就是不能够按照云原生的超级计算来理解。在我的认知中,云原生的行业是“容器+微服务化”。为什么“云原生超级计算技术”不能分割,我理解它和“容器+微服务化”没有太强的关联,容器、微服务化也不是云原生超级计算的重点。
宋庆春表示:云原生超级计算强调的是由CPU、GPU和DPU所构成的混合架构,其中,CPU、GPU承担计算的任务,DPU则用于承担网络、存储等协议的调度、解析,此前这些工作由CPU承担,DPU对其进行了卸载。
谈到用DPU进行卸载的原因,是因为在传统的架构中,计算、通信在协同中存在很多问题,如计算同步过程中,通信等原因导致CPU空闲等待,例如不同应用计算所导致的噪声、干扰、性能抖动等问题,种种原因都会导致CPU资源利用率不高,得不到充分利用。
新的解决办法就是引入DPU,对CPU的工作进行卸载。
其实,这就类似于最初引入GPU对图形处理进行加速一样,DPU的引入也是对于一些专用的处理进行硬件的加速,例如通信、存储、安全、加密等相关的处理,从而提升系统整体的处理能力。这是一个合久必分的过程。
为了帮助用户和开发者更好的使用DPU,英伟达配套提供了DOCA软件平台,其中针对安全、网络、存储提供了各种编排、调度的加速协议库,方便用户使用。
如今,DPU的性能不断提升,以英伟达的BlueField-3为例,相比上一代产品,其网络带宽提高到了400Gb/s,RDMA 传输地消息率(message rate) 提升到了370Mpps,其内存带宽也提高到80GB/s,大约有5倍左右的提升。
对于超级计算而言,新的云原生超级计算架构堪称如虎添翼,在最新的HPC Top500排行榜中,英伟达GPU、InfiniBand网络取得了不菲的成绩。其中,搭载 InfiniBand 网络和GPU的超级计算系统在节能的表现格外优异,获列 Green500 的第一名。
从超级计算的应用实践来看,DPU+InfiniBand网络的方案,在分子动力学模型、数据建模、天气预告模型等应用上效果显著。
尽管“山还是那座山,梁也还是那道梁”,但是在架构上稍加改变,带来的效果,堪称超乎预料。
不仅仅是DPU,具有SHARP技术的交换机计算输出,也会带来新的革新和改变,突破了传统地认知,应用获得了超过理论带宽地更高地Allreduce带宽,如200Gb/s的网络提供260Gb/s的带宽。
新的架构为云计算带来了新面貌,以往受制于多应用对资源的争夺,云在应对类似超级计算应用的时候,常常会表现出性能不佳,达不到预期。但有了新架构的加持,特别是应用的性能隔离,实现了在云上和在独立的超算中心同样的性能,为云超级计算开辟了新的前景。我想,也许这是新架构会被称为云原生超级计算的原因。
新的架构,新技术引入离不开技术人才的培养。从这个意义上说,每年的NVIDIA DPU 中国黑客松竞赛,一来可以培育人才,二来也是最新技术应用水平的体现。
据崔岩介绍,今年秋季 NVIDIA DPU 中国黑客松竞赛的获奖项目得到了评委会专家的认可和推荐,无论技术水平,还是商业价值均大有潜力。
管中窥豹,新的架构不仅带来了技术,更带来了新的思路和希望。