对话Supermicro:创新服务器设计平衡性能与功耗,应对算力挑战

当我们瞠目于人工智能的卓越成就时,也惊讶于算力、算法和数据应用技术的进步。 GPU算力的发展速度让人惊叹,以Nvdia最新发布的Blackwell 架构B200芯片为例,单个GPU就可以提供20 petaflops的算力,是原有的AI训练性能的4倍,推理性能的30倍,被誉为“核弹级”超级芯片。但是大家是否注意到,GPU性能的快速提升伴随着功耗的激增,从H100的700W到B200的1000W。

当一块GPU的功耗已达到 1000W,想象一下一万块GPU的功耗会是多少,着实令人心生敬畏。功耗的增加并非唯一问题,同时还伴随着散热的挑战。对此,作为领先的服务器厂商,Supermicro给出了2种散热解决方案:液冷式和风冷式,对此,用户应该怎么选择呢?同时,针对GPU、EDSFF SSD等技术进步带来的革命,在服务器设计上又应该如何应对呢?

Supermicro北京公司总经理李运杰

带着这些问题,DOIT总编宋家雨特邀Supermicro北京公司总经理李运杰进行了专访。

以下为采访实录:

宋家雨:液冷解决方案和风冷解决方案各有什么优势?

李运杰:在人工智能、大型语言模型(LLMs)和高性能计算(HPC)快速发展的背景下,液冷解决方案因其高效性在某些应用场景中已成为首选。然而,对于无法采用液冷方案的数据中心,风冷解决方案仍然是一个理想的选择。Supermicro在2024年台北国际电脑展(COMPUTEX 2024)上展示的SuperCluster产品,提供了风冷和液冷两种技术选项,以满足不同应用场景的需求,帮助客户最大化运营效率。

液冷解决方案的优势在于其显著的高效率,特别是在处理大型语言模型、生成式AI和云原生应用等高密度和高功率系统时。与传统风冷解决方案相比,Supermicro的液冷技术可以减少数据中心多达40%的电力消耗,使其成为高性能计算需求场景(如人工智能、机器学习和大规模数据处理)的理想选择。此外,液冷技术还允许更高密度的硬件配置,这对于空间受限的数据中心来说非常有利,尤其是在需要在有限物理空间内实现大量计算能力的应用场景中。液冷技术更适合于持续运行的服务器,尤其是在高性能计算需求的场景下。

风冷解决方案则适用于通用型服务器和中等散热需求的应用。它通常用于较小的数据中心或标准IT基础设施中,这些场景可能不需要高密度计算,或者系统并非设计为全天候满负荷运行。风冷技术因其成本效益和通用性,在这些应用场景中提供了一个理想的解决方案。

总结来说,Supermicro的SuperCluster产品通过提供液冷和风冷两种选项,使客户能够根据其业务需求和数据中心的特定条件选择最合适的冷却技术。无论是追求高效率和节能的高性能计算场景,还是需要成本效益和通用性的中等负载应用,Supermicro都能提供定制化的解决方案,以优化客户的运营效率。

宋家雨:GPU性能提升带来的服务器功耗一路飙升,对此需要在设计服务器时采取哪些针对性的设计?Supermicro是怎么做的?

李运杰:面对GPU性能提升带来的功耗挑战,Supermicro采取了一系列系统级和机架级的优化措施。

就系统级优化而言,Supermicro致力于将服务器工作负载与GPU设计提升相匹配,以减少应用运行时的功耗。我们注意到,随着GPU技术的迭代,每一代GPU都能在相同功率下完成更多的工作量。因此,我们精心选择整套系统,包括CPU和GPU的组合,确保在功耗预算内满足服务水平协议(SLA)的要求。此外,我们通过选择针对特定工作负载优化的服务器,配备执行相应任务所需的特定技术,从而提高能源效率。使用共享部分组件的多节点服务器或刀片服务器,也是我们降低能耗的有效策略。

在机架层面,Supermicro的解决方案专注于实现最佳电力分配和冷却效率。我们使用高效电源和先进冷却系统,确保整个机架的能效。例如,我们的液冷机架采用了自主设计的冷却液分配单元(CDU),该单元有效管理冷却液的循环,从高密度部署的服务器中高效散热,显著提高了电源使用效率(PUE),并通过减少冷却相关的能源费用来降低总成本(TCO)。Supermicro还提供预配置的机架级人工智能(AI)解决方案,这些方案专为优化能效而设计。它们采用了既优化性能又节能的组件,支持多种电源配置(208、230、415或480VAC)和集成48VDC的设施,进一步提升了数据中心运营的能效。

特别值得一提的是,Supermicro的液冷技术,包括直抵芯片冷却和浸没式冷却,显著降低了冷却IT设备所需的能耗。液体的热传递性能优于空气,使得使用液冷系统的冷却成本可能仅为气冷系统的十分之一。我们的液冷机架针对高冷却液温度进行了优化,提供了卓越的能效,能够将数据中心的能耗降低高达40%。

Supermicro通过这些创新的优化措施,不仅满足了日益增长的GPU性能需求,同时也确保了服务器设计的能效和可持续性。

宋家雨:优化服务器架构设计的好处是什么?

李运杰:优化服务器设计对性能、能源效率、运营成本和环境可持续性具有显著影响,带来了各种好处。因此,通过持续优化服务器设计,可以在实现业务和环境目标方面达到双赢的结果。例如,Supermicro的创新服务器设计支持多种CPU和GPU,并可轻松更换组件,从而减少了将整个服务器报废而产生的电子废弃物。这种设计通常被称为解耦设计。此外,由于客户现在可以升级某些组件而不是整台服务器,升级服务器所需的开支也将低于以往。

宋家雨:针对中国国内市场,Supermicro的策略是什么?

李运杰:人工智能的广泛应用扩展了服务器市场,吸引了更多中国公司参与竞争,并推动了市场增长。此外,AI技术的持续发展催生了新的服务器应用场景和需求,例如边缘计算和深度学习训练,进一步推动了服务器技术领域的创新和发展。

宋家雨:绿色节能技术会成为Supermicro市场竞争优势吗?

李运杰:在全球变暖和气候挑战日益严峻的今天,绿色节能技术,即绿色计算,已成为Supermicro的一项重要竞争优势。随着人工智能和大型语言模型的迅速发展,服务器的能耗问题也日益凸显。在这样的背景下,找到计算能力需求与能源消耗之间的平衡点变得至关重要。

Supermicro致力于通过其绿色技术,尤其是最新的液冷技术,帮助客户实现业务目标与环境、社会及治理(ESG)的双重目标。我们的液冷机架经过特别优化,以适应不同的温度条件,从而显著提升了能源效率。这一创新技术能够将数据中心的电力使用降低40%,帮助客户大幅度减少运营成本。

这些技术的优势不仅体现在降低运营成本和减少环境影响上,它们还满足了市场对环保IT基础设施的日益增长的需求。Supermicro通过引领绿色计算的潮流,吸引了越来越多注重可持续发展的合作伙伴。我们致力于帮助客户实现其环保目标,共同推动一个更加绿色、高效的计算未来。

宋家雨:对于CXL、EDSFF SSD,特别是E1.L、E3.L,从服务器设计的角度,Supermicro如何看待?有没有一些针对性的部署?

李运杰:CXL和EDSFF技术正在重新定义服务器市场的未来。EDSFF建立了一种我们认为在未来将占主导地位的接口形态,而CXL提供了一种通过CXL内存扩展器增加服务器内存容量的新方法。

Supermicro在行业内率先推出了支持EDSFF的服务器和存储系统。我们提供业界最广泛的NVMe、混合NVMe和SATA系统,EDSFF的加入进一步巩固了我们在NVMe市场的领导地位。这些优化的NVMe驱动器能够在1U的紧凑空间内支持多达32个热插拔驱动器,非常适合执行高性能工作负载或为IOPS优化的存储专用软件。在高性能存储产品系列中,Supermicro推出的系统将支持下一代EDSFF外形尺寸,包括E3.S和E1.S装置,这些装置的外形尺寸能够容纳16和32个高性能PCIe Gen5 NVMe驱动器槽。这不仅提升了存储密度,也增强了系统的扩展性和灵活性。

新型Supermicro X14系统每节点将支持最多576个核心,并且提供面向所有装置类型的PCIe 5.0、CXL 2.0接口,以及NVMe存储和最新型GPU加速器。这些技术的综合应用为运行AI工作负载的用户大幅度降低了应用程序执行所需的时间。

CXL作为一项新兴技术,Supermicro已经在服务器中全面支持。我们认识到CXL在内存扩展和加速计算方面的潜力,并通过我们的产品设计,确保客户能够充分利用CXL技术带来的优势。通过这些前瞻性的技术部署,Supermicro致力于为客户提供最先进、最高效的服务器解决方案,以满足他们不断增长的业务需求。

宋家雨:直流电源机架母线技术的主要适用场景是什么?

李运杰:直流母线技术主要用于数据中心,以优化成本和效率。除了能避免线缆杂乱外,直流母线比传统电源便宜得多,并且可以直接连接到服务器。这使其导电性能更好,从而提高了效率,减少了能量的热损耗。