超云田锋:以低碳高性能推动数据中心低PUE架构演变

“超云着重与供应链ISV、SI等生态合作伙伴的合作,共同给用户提供最佳产品与方案。”

在东数西算加速建设新基建大背景下,如何实现既保持高性能同时又节能的架构?超云探索出一条可行的道路。

5月26日线上召开的长城超云生态合作伙伴大会上,超云服务器事业部总经理田锋指出,高性能低能耗的必要性要从芯片发展与产业格局两个方面来说起。

超云服务器事业部总经理田锋

在芯片发展层面,支撑业务运行的计算与存储单元正在加速性能提升。x86芯片多核的发展速度要远大于制程的进步速度,同时能耗会带来提高。第二,闪存与IO的突破不再是瓶颈,DPU卸载网络更加的快速,网络承载的这个功能会更加的多, AI的芯片发展速度更是超过其他的芯片,功耗已经超过300w、400w,对应整个计算的提高都在加速度的提升,带来的问题是芯片的能耗也在加倍提高。

从产业格局角度,国家提出的“东数西算”战略,也相当于一种新的架构,x86,ARM、GPU、信创四类芯片竞争加剧,都试图更多的扩展自己的市场空间,服务云计算、大数据、人工智能、边缘计算等业务。

无论从哪个角度,这个变化的时代,需要更快速、更接近客户、更具创新精神来服务客户。

三个矛盾、四个转型与三大对策

针对芯片加速提高带来的能耗的问题,田锋总结出目前IT建设的三个矛盾和四个转型。

三大矛盾是:超算与AI这种重型的计算业务,高能耗与与国家节能战略的矛盾;芯片高TDP技术的发展策略与传统数据中心散热之间的矛盾;新业务要求快速的部署、快速上线与传统数据中心建设之间的矛盾,四项转型是:系统性的低碳要成为未来新建数据中心的最低参考要求;边缘计算在多年发展过程中也开始转型成单机边缘、物理边缘和架构边缘三类边缘计算;新基建、东数西算的新架构正在从传统的云边端架构向云数算智架构转型;业务数字化转型推动企业高质量发展。

对此,超云提出了东数西算大背景下降低数据中心PUE的三大对策。

一是多芯异构、绿色超算,在性能提高的情况下维持能耗。

目前超云在高性能服务器方面,实现了从尺寸到芯片型号的全面覆盖,AI服务器也实现了包括GPU服务器、ASIC芯片的AI计算卡的全面兼容,在AMD多核服务器方面处于全面领先地位,在5G边缘计算服务器实现全面布局。

田锋表示,基于全面的产品线,超云已经能够服务众多的客户实现高性能的需求。

在提升性能方面,超云有两项重要的技术——共享节能技术,通过让多个计算单元来共享电源、散热系统、IO卡等可冗余部件降低能耗,提高对应的能效,最佳情况下可以为整个系统节能5%;通过负载调优、业务调优、数字调优三种模式,为任何工作状态下的客户提供较好的电源转化效率。

二是创新低碳液冷,提供超低PUE保障。

传统的散热方式无论如何去调优,总会遇到不可逾越的瓶颈。东数西算要求,新建的数据中心PUE不能超过1.25。

2020年,超云开始市场化的液冷实践,并推出了2U空间内八核CPU不降频计算的液冷模式,2021年又推出了以液冷方式保持计算加存储都处在良好的散热环境,同期整机柜液冷产品面世,实现了液冷从单机到整机柜的闭环开发。目前超云正与生态合作伙伴进行产学研的开发落地,年内将推出第一款量产的整机柜以及浸没式液冷产品。

通过系统性的液冷节能,超云在常规节能基础上应用功耗超过350w的处理器情况下实现了性能提高20%。因为取消了风扇,部件元器件运行于较低的温度下,故障率降低15%,噪音也有较大幅度的降低,每机柜服务器部署密度最高可以提高13倍,有力地节省了空间。

通过液冷方式,新建的数据中心PUE最高低于1.09,系统性的平均数字也实现了小于1.2的效果。

三是提高业务的建设效率。

由于新业务上线太快,而传统建设模式较慢。超云通过微模块的方式把设备安装到机房前的工作前置在工厂中,可节约50%的时间,再结合整机柜交付、将调试前的工作整合到工厂执行的方式,再节约30%的时间,合计最高节约80%的时间,加快了新业务数据中心的建设,对于东数西算的快速建设具有特别的优势。

加强生态建设、提升研发能力

以上实践始终离不开生态伙伴的合作。

超云基于芯片级别合作伙伴的生态、技术开发了三大类产品:一是新一代超级计算机,强化多芯和性能,二是云计算基础设施,强化多元的算力,三是人工智能服务器,在数字经济建设中起决定性的作用,通过多元、多芯、多智三个理念打造了覆盖x86、信创以及各种计算型、存储型、网络型的全产品布局,凭借这些产品与ISV、SI以及供应链的伙伴共同服务最终用户,在互联网、金融、交通、能源、政府、企业等八个行业中去做开创性的支持工作。

上述产品基于超云研发创新能力的支持。

超云信创和x86已经具备完全自主开发的能力,产品经历了七八代的研发路线,在不同城市承载不同的任务:北京市主要负责x86和超融合产品的研发,深圳市主要负责信创产品的研发,广州市负责人工智能产品的研发,长沙市负责先进计算与超算类业务,南京市负责智能制造的开发实践。

通过十几年的研发积累,超云获得了100余项专利以及30余项软件著作权,与工信部和各省地市同时进行了十余项课题的研究,促进产学研的落地。今年又获得了北京市企业技术中心以及高精尖产业技术中心两项重要的认证。

面向未来,超云立志成为服务器开发领域的专家,与产学研生态一起推动技术向前进步,打造国家级研发中心。

丰富的行业实践

一切产品的研发和产品的推出,都是为了服务用户。超云决不做浮于表面的产品推荐与参数匹配,而是致力帮助用户寻找并解决其基本问题。

超云自有的产品级别、测试级别以及部件级别的三个研发实验室完全对外开放,帮助合作伙伴和用户在其软硬件生态、定制化联合的开发甚至是品牌打造。此外,超云还与供应链生态伙伴、研究机构成立了联合实验室,在多个大行业赢得了很多对行业有影响和改变的案例。

如在金税四期,与中国电子云联合打造高扩展性、高连续性、可靠性的平台,保障业务数据性和安全性有很大的提高;在能源行业,超云与东方电子在国家电网级别的东数西算部分边缘计算的落地,实现了创新型突破;在交通行业,超云联合英特尔傲腾持久性内存开发了一个针对高速公路的方案,在满足客户业务需求的同时降低TCO,超云以众多优秀的产品,成熟的经验,提供不少于2560个计算核心机柜,每个机柜不少于12 PB的存储能力,并且具备高速、低延时的IO和网络,支持覆盖HPC、大数据、异构计算、元宇宙、区块链等丰富的算力服务,推动东数西算数据中心向低PUE架构的转变。

超云宁夏算力中心揭牌仪式。

宁夏银川首座云计算和大数据产业生产基地——超云宁夏算力中心部署海量高性能算力集群和GPU算力集群,实现超高计算能力,采用自主研发的大规模开放集群存储架构,实现分布式集群存储系统,提供全方位云计算服务及定制化云算部署,提升行业应变能力。

绿色自主、安全共享,全面助力云计算和大数据产业发展,紧跟东数西算国家战略,超云着力突破关键技术,强化自研能力,组建专业运维团队,布局全国多个云中心和分布式云节点,提供云网边端融合、云数智融合、建管运融合的全站云计算服务,实现东部数据加西部算力的最优组合。

“超云努力探索数字经济发展路径,构筑数字经济坚实基座。”田锋最后说。