新华三李立:攻关算网新技术,推动算力均衡发展

7月29日-31日,国内首个算力领域的国家级会议——2022中国算力大会在山东济南召开,众多院士专家、企业精英齐聚一堂,共话算力产业发展。紫光股份旗下新华三集团应邀参加本届盛会,新华三集团副总裁、解决方案部总裁李立出席主论坛并发表演讲,分享了新华三集团对算力与网络融合背景下技术发展趋势的深度洞察。

1.jpg
新华三集团副总裁、解决方案部总裁李立发表主题演讲

今年2月,“东数西算”工程正式启动,我国算力基础设施建设步伐进一步加快,但随着算力应用场景持续拓展、数据规模爆炸式增长、算法复杂度不断提高,产业发展面临的挑战也不断攀升。李立表示,算力产业主要面临着日益增长的行业智能化需求和不均衡、不充分的算力发展间的矛盾,应从芯片级、设备级、集群级、地域级4个维度寻找突破口,通过核心技术攻关解决从芯片到广域的IO不均衡问题,助推算力产业高质量发展。

2.png

芯片级:“存算一体”构建算力基石

在摩尔定律驱使下,芯片不断朝着高性能、低成本、高集成的方向发展,但随着单芯片集成的晶体管数量增多,高耗能等问题随之出现,导致芯片性能难以持续提升,制约了算力释放。

李立指出,多芯片堆叠封装为芯片突破性能瓶颈提供了可能,另一方面,存算一体的发展思路可以有效平衡计算和内存的配比,缩短数据搬运路径,降低搬运功耗,实现芯片级算力与IO的平衡,为算网融合构建算力基石。新华三集团未来将携手业界积极推进相关标准建设,以实现片内算力和片间互联的均衡发展。

设备级:互联设计实现多维度性能升级

从设备内视角来看,CPU、总线速度、主内存带宽及容量的发展速度不一,冯诺依曼体系下主内存已成为性能增长的主要瓶颈,不仅内存容量增速不及CPU内核增速,内存带宽也存在不足。另外,CPU、内存、GPU集成化设计成为IO和计算协调发展的制约因素,IO设备级的性能提升需要寻找新的优化方向,突破冯诺依曼体系是一个新思路。

当前,以扩展总线的Scale-out模式换取IO提升,成为设备算力提升的有效手段,例如PCIe Switch、CXL Switch、NV Switch、NVMe over Fabric等,业界已经开始尝试多种总线互联和扩展技术,从内存、GPU、存储等多个角度入手,从互联设计角度出发,对资源进行分布式池化设计,从而平衡数据IO和计算密度。

集群级:AI+在网计算,保障算力拓扑最优态

随着数据中心集群规模不断膨胀,传统的Spine-Leaf网络架构已无法满足大规模算力集群的通信需求。部分算力中心采用DragonFly等架构进行大规模网络互联拓扑,业界也持续研究最优拓扑架构,以实现Scale-out 性能线性增长的同时保障高带宽、低延时。

李立认为,算力拓扑也是构建高性能算力中心的关键环节,运用AI技术和网络设备的在网计算能力,可以实时收集并分析组网、设备、流量等综合信息,并通过强化学习对业务流量模型进行算力拓扑规划和动态调整,从而保障算力拓扑始终处于最优状态,满足大规模计算集群的部署需求。新华三集团近年来不断迭代组网拓扑,以期实现大规模算力部署和高性能数据中心网络的均衡,满足算力扩张需求。

地域级:确定性服务加持广域算力互联及调度

“东数西算”工程拉开了算力跨域调度建设的序幕,未来各算力中心将跨区域实现互联形成算力网络,这对算力调度保障、在网算力优化建设等提出了更高要求。

在李立看来,确定性服务是广域算力互联及调度的关键点,在实际应用中具备诸多优势。在网络传输层面,传统的广域网传输是尽力而为的转发方式,通过引入确定性网络技术,可以保证网络层面全方位确定性传输,数据跨区域传输时延确定可控;在算力调度层面,通过分布式算网大脑统筹考虑可用算力容量、成本、网络传输效率等多维属性,可以为客户提供确定性有保障的服务。

算力网络涉及网、云、数、智等多领域技术,要求多产业链高效协同,任何一个薄弱环节都可能影响产业整体的演进进程。当前,新华三集团已持续为行业客户提供覆盖云、网、边、端各类场景的算力供给算力调度算力赋能算力安全绿色算力等全方位算力服务,同时计划联合业界专业机构推出行业算力发展指数,通过对行业算力发展水平的多维度评估,找出影响算力发展的关键阻碍,助力算力行业实现“共同繁荣”。

算力与网络的融合发展是大势所趋,只有把握好算网融合新趋势,加强算网核心技术攻关,同时构建产业生态形成发展合力,才能更快更好地建成高质量算力网络,让算力成为普惠大众的生产力,进而推动百行百业数字化转型进程,促进我国数字经济的稳步健康发展。