当今时代被誉为智能时代,对于机器学习也好,AIGC也好,算力是业内的焦点与核心,算力也与算法、数据一道,被称为计算的三要素。其中,算力中的高端芯片制造,也被视为国内科技进步的重点,那么如何揭开这道难题呢?
对于这道难题,浪潮计算机也给出的答案。不同的是,新的答案没有拘泥于高端芯片,而是从系统实践的角度给出了新的解题思路和方法。9月25~26日,浪潮计算机举办算力创新大会,在活动期间,浪潮计算机产品研发部总经理李岩、浪潮计算机服务器产品部副总经理张磊接受媒体专访,详细阐述了浪潮计算机的新观点。
在浪潮计算机看来,算力不仅仅是高端芯片制造问题,不仅是高端芯片所面临的一些前所未有的挑战,诸如摩尔定律、登纳德缩放定律、以及阿姆达尔定律即将失效的问题等。
李岩指出:“芯片算力真正释放给客户得到应用,离不开算力平台这一关键支撑,上游算力芯片多元化、单芯片高速率、高功耗的发展趋势,下游自监督、多模态巨量模型的应用需求,给算力平台的构建带来了前所未有的挑战,多元算力基础设施建设已经开始进入深水区。”
“与芯片算力相比,算力平台不仅是简单的系统集成,更是一项涉及10000多个零部件、50多类专用芯片、30多个技术方向、100多种传输协议,从PCB到PCBA再到整机制造会用到150余种加工制造工艺,为了确保数以万计零件的正确组装并能最终释放出系统最大性能,需要对280多个关键过程控制点的质量进行严格把控,需要管理平台对异构算力资源的精细化管理,由此可以看出,多元算力平台的构建是一项巨量工程、技术门槛高、产业配套难,算力平台是跨越芯片到应用之间的鸿沟、高效释放多元芯片算力的关键。”他说。
从芯片到算力平台,浪潮计算机在这里揭示了一个简单的道理:算力不仅是GPU等芯片能力的问题,管理的调度和协同管理同样重要,以AIGC的实践为例,AIGC的大模型训练需要强大算力的支撑,需要部署上万片GPU,通过集群计算来满足需要。但是仔细观察GPU使用效率就会发现,这些GPU并没有达到100%,甚至连50%都没有,造成算力、能源的浪费。可以说,通过堆积GPU满足算力的需求,是一种简单粗暴的做法,也是一种相对简单的做法。
如今摩尔定律红利不在,传统方法难以为继,在这种情况下,浪潮计算机的新思路更加具有可行性。
所谓算力问题,不仅是计算能力的问题,同时也是能耗和安全等问题。以能耗问题为例,国家发改委相关数据显示,我国数据中心年用电量已占全社会用电的2%左右,且仍在快速增长中。如今,一台AI服务器功率已经达到约为5000w,其使用两年的电费,就已经和服务器整机初始购买成本相当,因此绿色节能,有效降低运营成本,不仅社会责任问题,同时也是用户非常关注的现实问题,也是必须要解决的问题。安全的问题更是首当其冲,如果不能够实现安全可控,没有坚实的基础,所谓现代化应用无异于沙地建楼。
对于算力问题而言,计算、能耗和安全诸要素之间不是彼此孤立的,更多是交织在一起的。以计算芯片多元异构的选择为例,很多是基于安全和现实的选择,芯片本身在性能上存在一定差距,但如果能够在资源效率做到扬长避短,从安全性、成本、绿色节能上考虑,仍然不是为上佳的选择。
据张磊透露:算力平台中涉及的很多技术,如高密度高速互联技术、动态电压频率调整技术、智能能效管理技术,以及整机散热策略设计等技术等均有助于目标的达成和实现。以高速互联技术为例,近年来信号传输速率快速增长,PCIe信号速率在4.0之后迭代加速:Gen3 -> Gen4 经历7年,Gen4 – > Gen5 ->Gen6 间隔只有2年,当前最高SerDes速率已经达到112Gbps,预计三年内会实现翻倍,这对信号完整性设计带来更大挑战;再例如电源管理方面,随着GPU功耗大幅提升,在12V母线架构下,母线电流将接近1000A,未来3~5年,核心部件供电电流将大幅增长,CPU功耗提升到500W,供电电流(TDC)将达到330A,这给电源完整性(Power Integrity)设计带来更大挑战。
为应对多元算力基础设施建设面临的挑战,浪潮计算机提早布局基础技术研究方向,持续攻关并完成了多项前沿技术的探索和成果转化。首先是在高密度高速互联技术方面,浪潮计算机开展高精度有限元3D建模仿真技术研究,挑战高速信号设计极限,在相同损耗等级的PCB板材条件下实现了更高的信号传输距离;在工业化大批量制造条件下, 40层以上高密度高速PCB互连实现了56Gpbs以上的速率;其次在高功率服务器系统散热技术上,通过采用新型金属相变导热材料,在4U空间内实现了8卡 500W GPU风冷的散热;其定向浸没冷却技术,则实现了700W以上高功耗芯片的散热;其创新的风冷液冷混合绿色节能技术,实现了400W以上中高功耗芯片冷却,;采用虹吸散热,波导散热等提升传统风冷设计效率,提升散热效率50%以上,数据中心电力费用每年减少5%以上;采用动态节能管理技术,实时调整电源激活数量,保证电源50%高效负载,实现整机功耗效率更大化。此外,在面向服务器系统可靠性设计方面,建立了涵盖元器件膨胀系数、运行温度等十余个加速失效因子模型,验证了加速因子(Af)与生命周期(Nf)之间关系。
为了满足企业系统对于可靠性的需求,浪潮计算机以整机系统为中心,研究整机可靠性设计,可管理设计,易维护设计技术,提升整机稳定性、可靠性。以可靠性设计为例,基于底层寄存器级故障监控机制研发的底层阈值和漏斗技术,可以识别系统潜在的风险;其功耗封顶技术,则解决了某些异构处理器芯片,功耗管理不完善的问题;其创新NVMe热插拔技术,则弥补了部分处理器功能的不足。其研发的开发平台测试治具、32G高速总线仿真、400A级电源完整性技术等都填补了国内异构处理器的空白;浪潮计算机提供的在线升级工具、无人值守安装以及硬件错误信息识别,则让易维护设计运维如虎添翼。
浪潮计算机算力平台的技术积累为解决算力问题创造了条件,通过开辟了解决问题新的思路。
浪潮计算机推出的整机柜服务器堪称算力平台的优秀之作。
浪潮整机柜服务器实现机柜与节点解耦,实现面向通用服务器机型的兼容,用户能够按需部署,灵活便捷;实现跨平台、跨技术路线的统一纳管,屏蔽异构差异,无感迁移;浪潮整机柜服务器采用整柜集中供电,电源池化结合动态节能调节技术,如此,可以显著降低数据中心电力消耗,让数据中心建设 “更灵活、更高效、更绿色”。
总之,GPU等高端芯片制造不是问题的全部,“更好用、更可靠”终端和服务器才是算力问题的终极体现,从这个意义上来说,“更好用、更可靠”的算力,就可以是一道“选择”题!
对此,你选择对了吗?