“源神启动”?!重磅开源周,来看看DeepSeek这几天都发布了些什么内容

导读

2025年2月24日,DeepSeek宣布正式启动“开源周”活动,旨在通过陆续开源5个代码库,以完全透明的方式与全球开发者社区分享其在人工智能领域的最新研究成果。这一活动标志着DeepSeek在开源战略上的进一步升级,也为全球AI技术的发展注入了新的活力。

截至2025年2月26日,DeepSeek在“开源周”活动的前三天(2月24日-26日)已发布以下三项重要开源项目,覆盖AI底层算力优化与通信技术,具体内容如下:

FlashMLA(2月24日)

功能定位:

针对NVIDIA Hopper架构GPU(如H800)优化的高效多层注意力(MLA)解码内核,专为处理可变长度序列设计,适用于大语言模型的推理加速。

核心优势:

在H800 GPU上实现内存带宽超3000 GB/s,BF16精度下算力达580 TFLOPS,对比传统方案效率显著提升。

支持动态批处理,兼容CUDA 12.3+和PyTorch 2.0+,已投入生产环境验证。

三步完成安装与性能测试,开发者可快速集成至实时生成任务(如聊天机器人、文本生成)。

DeepEP(2月25日)

DeepSeek开源周第二日(2月25日),DeepSeek官宣开源DeepEP,第一个用于MoE模型训练和推理的开源EP通信库。特点有:高效、优化的全员沟通;节点内和节点间均支持NVLink和RDMA;用于训练和推理预填充的高吞吐量内核;用于推理解码的低延迟内核;原生FP8调度支持;灵活的GPU资源控制,实现计算-通信重叠。

DeepGEMM(2月26日)

据了解,DeepGEMM是一个专注于为FP8高效通用矩阵乘法(GEMM)库,支持普通及混合专家(MoE)分组的矩阵计算需求,可动态优化资源分配以提升算力效率。

该库基于CUDA开发,采用轻量级即时编译(JIT)模块,在运行时动态编译内核,无需预先编译安装。

值得一提的是,DeepGEMM设计目标是为DeepSeek-V3/R1模型的训练与推理提供简洁高效的底层支持,尤其针对Hopper架构GPU(如H800)优化,兼顾高性能与低成本。

作为开源周的第三项成果,DeepGEMM的发布延续了DeepSeek此前开源模型与工具(如FlashMLA)的策略,进一步降低高性能计算技术的应用门槛。

开源周的意义与后续计划

据介绍,DeepSeek的目标是通过开源透明化团队在通用人工智能(AGI)领域的探索进展,推动技术共享与行业应用加速。这个“开源周”已经吸引了全球开发者极大关注。

据悉,DeepSeek的横空出世及开源策略正在牵动大模型赛道的分化,以及各国不同的AI发展路径之争。

最初,开源指“开放源代码”,在人工智能和数字时代,开源更指的是“开放资源”。有业内人士告诉记者,其实在DeepSeek-R1发布之前,o1模型已经具备了深度思考的能力,只是OpenAI秉持闭源策略,并未公布o1的技术方案,而DeepSeek则是自主探索出了背后的技术,并对此进行了全面开源,引发全球热潮。

今年,在DeepSeek的带动下,越来越多的AI厂商开始拥抱开源。

天使投资人、资深人工智能专家郭涛表示,越来越多AI企业选择开源,一方面将促使各企业更加注重打造差异化的生态体系,围绕开源模型衍生出不同的服务、插件、工具等产品;另一方面,为了在生态竞争中胜出,企业会联合起来制定统一的接口规范、数据格式等标准,提高整个行业的协同效率和兼容性。

“AI这个领域本身就是由开源推动的。”清华大学计算机科学与技术系长聘副教授、面壁智能创始人刘知远认为,开源不仅是一种技术选择,更是一种信任机制。当一个项目开源,意味着它向全世界证明自身的可信度——我说它能做到什么,任何人都可以去验证,这种机制将极大地提升现代社会的运作效率。“未来,开源会得到更深入、更广泛的应用,它是一种不可逆的趋势。”

刘知远也表示,不能简单地将开源视作一种无条件的共享,而是要注重如何在开源的基础上,构建更深层次的技术优势,“真正的竞争力,不在于某一个具体的开源模型,而在于如何高效、稳定、可持续地生产更先进的模型。这才是决定一家AI公司能否保持领先的关键。”