【编者按:2025年3月27日,“2025人工智能基础设施峰会”在上海龙之梦万丽酒店盛大召开。本次峰会以“智能基石 创新赋能”为主题,由上海市计算机学会指导,DOIT传媒主办,算力豹、百易存储研究院、CXL技术应用俱乐部、上海市计算机学会存储技术专委会、上海交通大学计算机系支持,汇聚产业链上下游企业、机构及专家学者,共同探讨AI基础设施的前沿趋势、技术创新与应用,推动中国AI产业迈向新高度,会议同期还发布了算力全景图(2025版)分析报告。会场吸引近千名观众参加。

“2025人工智能基础设施峰会”会场
AI技术飞速演进的当下,神经网络模型的规模和复杂度不断攀升,对训练过程中的效率和容错能力提出了更高要求。应对这一挑战,上海科技大学研究员、博导殷树教授团队开展了相关研究工作,在面向大规模神经网络的检查点(Checkpointing)方面取得进展。
在2025人工智能基础设施峰会-智能算力前沿技术论坛,殷树教授以”面向神经网络的探索与优化”为题,分享其在面向大规模神经网络检查点方面的最新研究成果,介绍名为Portus的优化方法,如何通过优化的数据传输路径和索引结构,提升DNN检查点的效率,并为大规模模型训练提供高效的容错解决方案,深入探讨如何通过技术创新提升神经网络训练的效率和可靠性。

智能算力前沿技术论坛现场

上海科技大学研究员、博导殷树教授
随着深度学习模型规模的持续增长(例如PaLM模型已达到5400亿参数),训练过程中的容错需求变得愈发重要。Checkpointing技术虽然能够通过定期保存模型状态来实现故障恢复,但在当前3D并行训练框架下面临着数据量指数增长、存储效率低下和传输开销过大等核心挑战。现有解决方案如CheckFreq需要消耗高达33%的训练时间用于检查点操作,主要瓶颈来自多次数据拷贝、内核层交互以及数据序列化带来的额外开销。
针对这些问题,研究团队提出了名为Portus的新型优化方案。该系统的核心创新在于设计了反向RDMA通道,通过改变传统数据传输方向,使计算节点只需注册GPU内存地址,而PMEM设备可以主动通过RDMA读取或推送数据,从而彻底消除了GPU到PMEM的数据拷贝开销。此外,Portus采用双窗口PMEM管理机制,通过轮换写入策略优化了持久内存的访问效率。在架构设计上,系统采用轻量级元数据管理,服务器端负责集中维护检查点元数据,而客户端则以PyTorch插件形式部署,实现了零拷贝的张量收集功能。
实验验证环节采用了由双路Xeon服务器(配备6块256GB PMEM设备)构成的存储端,以及搭载V100/A40 GPU的计算节点,网络环境为100Gbps Infiniband。测试结果显示,Portus在224亿参数GPT模型上的表现显著优于传统方案:完成一次Checkpointing仅需15秒,相比BeeGFS的127秒和torch.save的130秒实现了8倍以上的性能提升;在数据恢复(Restoration)方面更是达到9.23倍的加速效果。进一步分析表明,Portus成功将GPU利用率提升至76.4%,同时将主要开销集中在RDMA通信环节,基本消除了序列化和内存拷贝带来的性能损耗。据估算,在典型的24小时训练周期中,Portus可以累计节省1.5小时的检查点操作时间。
这项研究的重要意义在于首次实现了PMEM与RDMA的高效协同,为千亿参数规模的大模型训练提供了切实可用的高性价比容错解决方案。展望未来,研究团队计划进一步探索将CXL内存等新型硬件技术纳入系统优化范畴,同时深入研究检查点机制与训练流水线的深度协同优化策略。这些工作将持续推动人工智能基础设施的技术创新,为更大规模、更复杂的神经网络训练提供可靠支持。