导读
2025年3月27日,由上海市计算机学会指导,DOIT传媒主办,算力豹、百易存储研究院、CXL技术应用俱乐部、上海市计算机学会存储技术专委会、上海交通大学计算机系支持的“2025人工智能基础设施峰会”在上海龙之梦万丽酒店盛大召开。

上海科技大学计算机科学与技术学院殷树教授团队在峰会的智能算力前沿技术论坛中,分享了针对大规模神经网络训练的Checkpointing优化研究成果。该研究针对当前3D并行训练框架下数据量激增、存储效率低、传输开销大的核心痛点,提出了名为Portus的创新型优化方案,为千亿参数级大模型训练提供了高性价比的容错解决方案。
文字编辑|宋雨涵
1
技术突破
Portus的新型优化方案
随着深度学习模型规模的持续增长(例如PaLM模型已达到5400亿参数),训练过程中的容错需求变得愈发重要。
01
Checkpointing技术面临的问题?
Checkpointing技术虽然能够通过定期保存模型状态来实现故障恢复,但在当前3D并行训练框架下面临着数据量指数增长、存储效率低下和传输开销过大等核心挑战。现有解决方案如CheckFreq需要消耗高达33%的训练时间用于检查点操作,主要瓶颈来自多次数据拷贝、内核层交互以及数据序列化带来的额外开销。
02
创新设计
- 反向RDMA通道设计
该系统的核心创新在于设计了反向RDMA通道,通过改变传统数据传输方向,使计算节点只需注册GPU内存地址,而PMEM设备可以主动通过RDMA读取或推送数据,从而彻底消除了GPU到PMEM的数据拷贝开销。
- 双窗口PMEM管理机制
此外,Portus采用双窗口PMEM管理机制,通过轮换写入策略优化了持久内存的访问效率。在架构设计上,系统采用轻量级元数据管理,服务器端负责集中维护检查点元数据,而客户端则以PyTorch插件形式部署,实现了零拷贝的张量收集功能。
2
实验验证环节
显著能效提升
研究团队在由双路Xeon服务器(配备6块256GB PMEM设备)和V100/A40 GPU计算节点组成的集群中,通过100Gbps Infiniband网络完成实验验证:
效率提升
在224亿参数GPT模型训练中,Portus完成一次Checkpointing仅需15秒,较BeeGFS(127秒)和torch.save(130秒)提升8倍以上。
数据恢复(Restoration)速度达到9.23倍加速,显著缩短模型故障恢复时间。
资源优化
Portus成功将GPU利用率提升至76.4%,同时将主要开销集中在RDMA通信环节,基本消除了序列化和内存拷贝带来的性能损耗。据估算,在典型的24小时训练周期中,Portus可以累计节省1.5小时的检查点操作时间。
技术意义与未来方向
这项研究的重要意义在于首次实现了PMEM与RDMA的高效协同,为千亿参数规模的大模型训练提供了切实可用的高性价比容错解决方案
展望未来,研究团队计划进一步探索将CXL内存等新型硬件技术纳入系统优化范畴,同时深入研究检查点机制与训练流水线的深度协同优化策略。这些工作将持续推动人工智能基础设施的技术创新,为更大规模、更复杂的神经网络训练提供可靠支持。
人工智能基础设施加速向“效率与安全并重”演进
从算法优化到硬件适配,从单点突破到生态共建,人工智能基础设施的创新正加速向“效率与安全并重”演进。Portus系统的落地,为我国在AI基础设施技术攻关中迈进一大步,为全球AI大模型训练提供了中国方案。