“源神启动”!DeepSeek重磅开源六大项目,重塑大模型世界,开源大模型成为了当前科技圈内默契达成共识的风向标

导读

2025年2月24日,DeepSeek宣布正式启动“开源周”活动,旨在通过陆续开源5个代码库,以完全透明的方式与全球开发者社区分享其在人工智能领域的最新研究成果。

DeepSeek开源周期间,连续五天发布了六个核心技术项目,涵盖了AI底层算力优化、通信效率提升、数据处理加速等关键环节。这些开源项目旨在降低技术门槛和成本,提高模型训练与推理效率,推动AI技术的革新与行业合作。通过开源,DeepSeek展示了其在AI技术领域的深厚积累,并为全球开发者提供了开放共享的平台。

DeepSeek开源周都发布了什么?

日期开源项目项目简介主要特点与优势
2月24日FlashMLA针对NVIDIA Hopper架构GPU优化的高效多层注意力(MLA)解码内核动态资源分配:根据输入序列长度实时调整GPU算力分配,避免算力浪费。
分页KV缓存管理:降低显存占用至传统方法的1/4,支持BF16格式,内存带宽高达3000 GB/s。
低秩分解技术:适配边缘设备部署,压缩多头注意力的显存需求。
性能卓越:在H800 GPU上算力峰值可达580 TFLOPS,接近理论极限。
2月25日DeepEP首个用于MoE(混合专家)模型训练和推理的专家并行(EP)通信库硬件级通信优化:利用NVLink(160 GB/s)与RDMA跨节点传输技术,压缩GPU等待时间至163微秒级。
FP8智能压缩技术:原生支持低精度计算,减少带宽需求。
通信计算重叠策略:实现通信与计算的重叠,无需占用流式多处理器资源。
性能优势:千亿参数模型训练成本降低30%,MoE训练吞吐量提升1.2倍。
2月26日DeepGEMM面向Hopper GPU的高效FP8矩阵计算库FP8精度适配机制:平衡计算速度与精度,显存占用降低至FP16的1/4。
即时编译(JIT)技术:动态生成适配不同GPU架构的内核,核心代码仅300行。
高性能:在Hopper GPU上实现高达1350+ TFLOPS的算力,小批量场景下加速比达2.7倍。
2月27日DualPipe用于解决流水线并行中的“等待时间”问题的双向流水线并行机制双向流水线并行:同步调度前向与反向计算,消除传统流水线90%的“气泡”闲置时间,GPU利用率提升至92%。
显存优化:通过共享梯度传输机制,降低显存占用30%。
2月27日EPLB针对MoE模型的专家并行负载均衡器动态冗余专家分配:实时监测专家负载,将高负载专家复制至空闲GPU,闲置率接近0%。
分层负载均衡策略:结合节点内局部优化与跨节点全局调度,减少通信流量50%。
2月28日3FSFire-Flyer File System专为AI训练和大数据处理设计的高性能并行分布式文件系统高速数据访问:利用SSD和RDMA网络,数据读取速度达到每秒6.6TB。
分布式文件系统:适合海量数据训练,提升AI模型训练和推理的效率。

此前算力豹盘点此前三天DeepSeek开源内容,了解详情请点击下方链接:

“源神启动”?!重磅开源周,来看看DeepSeek这几天都发布了些什么内容

接下来让我们看看后两天都发布了些什么内容吧:

1

连发重磅项目

DeepSeek第四天放出了双响炮:开源DualPipe和EPLB

今天DeepSeek发布了DualPipe(双向管道并行算法)和EPLB(专家并行负载均衡器)。

据DeepSeek介绍,DualPipe是一项在DeepSeek-V3技术报告中引入的双向管道等值算法,它实现了向后和向后计算通信阶段的双向重叠,显著减少训练空闲时间。

同时,流水线气泡优化这一创新调度策略,降低传统管道并行中的气泡”问题,有效提升硬件资源利用率。在GitHub上,目前该算法已经获得544个Star收藏。

另外,在此谈一谈EPLB(专家并行负载均衡器)。

EPLB(专家并行负载均衡器)具有动态负载均衡、分层与全局平衡结合、流量优化的特点。

具体来看,动态负载均衡是基于混合专家(MoE)架构,通过冗余专家策略复制高负载专家,并采用启发式分配算法优化GPU间的负载均衡;

另外在分层与全局平衡结合方面,它既支持单个节点的分层负载管理,也实现跨节点的全局负载平衡,减少GPU闲置。

此外在流量优化上,可在平衡负载的同时,通过调整专家分布降低节点间通信数据量,提升整体训练效率。

开源劳苦功高的3FS!

最后一天DeepSeek开源的项目是:Fire-Flyer文件系统,即3FS。

据了解,3FS是一个高性能并行文件系统,它是所有Deepseek数据访问的助推器,能应对AI训练和推理工作负载的挑战。

它利用现代SSD和RDMA网络提供共享存储层,能简化分布式应用程序的开发,具有以下主要特性:

1、分离式架构:结合了数千个SSD和数百个存储节点的网络带宽,使应用程序可以不受位置限制地访问存储资源

2、强一致性:实现了链式复制与分配查询(CRAQ)协议,确保数据的强一致性,简化应用程序开发

3、文件接口:提供基于事务性键值存储(如FoundationDB)支持的无状态元数据服务,使用通用的文件接口,无需学习新的存储API

4、多样化工作负载支持

4.1 数据准备:高效组织数据分析管道的输出和管理大量中间结果

4.2 数据加载:支持计算节点间的训练样本随机访问,消除预取或打乱数据集的需求

4.3 检查点保存:支持大规模训练的高吞吐并行检查点保存

4.4 推理KVCache:提供比基于内存缓存更具成本效益的替代方案,同时提供高吞吐量和更大容量

另外,3FS的核心性能指标表现在聚合读取吞吐量上,具体体现就是在由180个存储节点组成的集群中,可实现6.6 TiB/s 的聚合读取吞吐量。

在基准测试表现中,在25节点集群的GraySort基准测试中,吞吐量可达 3.66 TiB/分钟;在单客户端节点的KVCache查找峰值吞吐量超过40 GiB/s。

尤其值得一提的是,3FS对于V3和R1中训练数据预处理、数据集加载、嵌入向量搜索和KV Cache查找等工作,都立下了汗马功劳,可谓功高盖主!

2

重塑大模型世界

国产显卡动作神速!摩尔线程全面支持DeepSeek开源周成果

摩尔线程宣布,DeepSeek开源周收官后,短时间内成功全面支持DeepSeek各开源项目,包括FlashMLA、DeepEP、DeepGEMM、DualPipe及3FS文件系统。

此成果验证了MUSA架构和全功能GPU在生态兼容与快速适配上的优势。

支持项目简介:

FlashMLA:高效MLA推理内核开源仓库,加速MLA机制计算,适用于DeepSeek系列模型。摩尔线程基于MUSA Compute Capability 3.1架构,提供FP8计算能力,升级MUTLASS库,发布MT-FlashMLA开源仓库,兼容部署DeepSeek FlashMLA。开源地址见链接。

DeepEP:用于MoE模型训练和推理的开源EP通信库,提升大模型训练效率。摩尔线程基于MUSA架构第一时间适配DeepEP。开源地址见链接。

DeepGEMM:支持密集矩阵与MoE矩阵乘法的FP8 GEMM库,为V3/R1提供动力。摩尔线程基于MUTLASS优化实现FP8矩阵乘法,支持DeepGEMM。开源地址见链接。

DualPipe:DeepSeek-V3提出的双向流水线并行算法,减少流水线气泡,提升资源利用率与训练效率。摩尔线程依托Torch-MUSA框架和MUSA软件栈兼容性,实现高效支持。MT-DualPipe可接入MT-Megatron和MT-TransformerEngine框架。开源地址见链接。

3FS:利用现代SSD和RDMA网络带宽的并行文件系统,极致利用固态硬盘带宽性能。摩尔线程一天内完成3FS搭建,开发存储插件,实现与夸娥智算集群无缝集成,为AI训练、推理、科学计算等提供全栈存储加速方案。

阿里万相大模型登上全球开源榜首

Hugging Face最新榜单显示,开源6天的阿里万相大模型已反超DeepSeekR1,登顶热榜、空间榜,成全球最受欢迎大模型。万相2.1在Hugging Face及魔搭社区下载量超百万,Github Star数超6K。

第二名是Microsoft的The Ultra-Scale playbook,DeepSeekR1暂列第三。2月25日深夜,阿里云宣布万相2.1开源。

万相2.1采用Apache2.0协议,14B和1.3B参数规格推理代码和权重全开源,支持文生视频和图生视频任务。14B版本在指令遵循、复杂运动生成等方面表现突出。

在Vbench中,万相2.1总分86.22%大幅超越国内外模型,稳居榜首。1.3B版本不仅超更大尺寸开源模型,还与部分闭源模型结果接近,能在消费级显卡运行,8.2GB显存即可生成480P视频,适用于二次开发和学术研究。

写在最后

DeepSeek创始人梁文锋在开源项目署名中亲自参与研发,强调“AGI不应是象牙塔”,需与社区共建生态。此次开源周以“透明化”打破技术垄断,推动AI普惠化。正如行业观察者所言:“DeepSeek开源的不仅是代码,更是通往AGI的‘通关秘钥’。”

随着R2模型加速研发,DeepSeek或进一步改写全球AI竞争格局。开发者与企业的共同期待已明确:开源大模型时代已来,谁将率先抵达AGI彼岸?