导读
在人工智能狂飙突进的今天,神经网络模型的规模已突破千亿参数门槛,训练过程中所需的内存消耗呈指数级增长。以GPT-4为代表的多模态大模型,其训练内存需求甚至超过1000GB。然而,GPU显存容量受制于物理芯片规格,传统训练方法面临“内存瓶颈”。此时,Checkpointing(检查点技术)如同一把钥匙,为破解这一难题提供了新思路。

Checkpointing通过选择性存储中间激活值而非全部参数,在反向传播时重新计算丢失的激活值,从而减少内存占用。这一技术虽能“省空间”,却需付出额外计算成本的代价,其优化路径成为全球AI研究者的核心课题。
文字编辑| 宋雨涵
1
技术解析
Checkpointing的“得与失”
1. 激活检查点(Activation Checkpointing)
在大型语言模型(LLM)微调中,激活检查点通过仅保存关键层激活值,将内存占用降低40%-60%。例如,训练千亿参数模型时,若采用传统方法需128GB显存,激活检查点仅需48GB。但代价是反向传播时需重新计算丢失的激活值,导致训练时间增加30%-50%。
2. 梯度检查点(Gradient Checkpointing)
针对深度网络(>100层),梯度检查点通过牺牲部分前向计算效率,换取内存空间的释放。实验显示,其在训练70B参数模型时,显存占用从192GB降至96GB,但训练时间延长18%。
3. 行业痛点:规模化应用的挑战
数据传输瓶颈
数据传输瓶颈:跨节点训练时,检查点数据传输延迟占整体训练时间的15%-25%;
容错能力不足
节点故障导致的全局检查点重传,可能引发“雪崩效应”
索引结构低效
传统哈希表索引在千亿级参数场景下查询效率下降60%。
2
殷树教授的破局之道:
Portus方法的技术突破
在2025人工智能基础设施峰会-智能算力前沿技术论坛上殷树教授将分享其在面向大规模神经网络检查点(Checkpointing)方面的最新研究成果,介绍名为Portus的优化方法。

殷树教授将带来如何通过优化的数据传输路径和索引结构,提升DNN检查点的效率,并为大规模模型训练提供高效的容错解决方案,深入探讨如何通过技术创新提升神经网络训练的效率和可靠性。欢迎您参会交流。
专家简介
殷树,上海科技大学长聘副教授(tenured),博士生导师,MHPC联合实验室主任。长期从事并行与分布式文件系统、高性能计算系统等研究工作。研究成果发表于TPDS,TDSC,SC,SoCC,ICDCS,ICPP等多个高水平期刊会议。殷树教授曾多次受邀参与DOIT主办的全球闪存峰会等行业大会,其研究成果受到业界的广泛关注。
写在最后
在人工智能的星辰大海中,Checkpointing技术如同航海图上的经纬线,看似静默无声,却指引着整个舰队的前进方向。当我们在惊叹AI模型的惊人表现时,不应忘记背后这些”隐形工程师”的耕耘。2025人工智能基础设施峰会,让我们共同期待殷树教授揭开神经网络训练优化的新篇章——这不仅是对技术的探索,更是对智能文明演进规律的深刻洞察。