偷摸内卷,DeepSeek-V3深夜惊爆上新,将开源贯彻到底,R2发布指日可待?

导读

深夜突袭!DeepSeek-V3携6850亿参数“偷袭”代码界,Claude 3.7瑟瑟发抖?——AI基建再掀技术革命。

2025年3月25日,当全球AI巨头还在为发布会排期时,中国团队DeepSeek已悄然在Hugging Face上线了DeepSeek-V3-0324版本。这个没有预热、没有宣传的“深夜更新”,不仅以6850亿参数刷新国产模型纪录,更在代码生成、数学推理等领域实现“降维打击”,被开发者称为“Claude 3.7 Sonnet的隐形杀手”。

文字编辑|宋雨涵

1

数据说话

看看V3和V3-0324有啥不一样

指标DeepSeek V32024.12DeepSeek V3-03242025.03变化/说明
总参数6710亿6850亿增加140亿参数,可能用于扩展模型深度或增强特定模块(如多任务处理层MTP)
token激活参数370亿370亿保持相同激活规模,推测未调整稀疏激活机制或专家混合策略
训练数据14.8万亿token14.8万亿token数据量未变,可能复用原有数据集或通过数据蒸馏技术优化训练效率
训练成本550万美元550万美元(预估)成本控制仍是亮点,可能通过优化训练流程或硬件利用率维持成本不变
推理速度“X上称更快,未实锤”社区传闻速度提升,需官方数据验证(可能涉及算子优化或硬件加速)
代码能力超越Llama 3.1 405B代码生成能力显著增强,接近更大模型(如Sonnet 3.5)表现
数学水平(MATH 500“用户称进步显著”数学推理能力大幅提升,可能优化数学逻辑模块或增加数学领域预训练数据
上下文窗口128K token128K token保持长文本处理能力,未扩展窗口长度

再来看看具体有哪些升级

相较于上一版,从一个球在超立方体弹跳的Python脚本,即可看出V3代码性能的改善。

甚至,它还能解锁Claude 3.7 Sonnet很多玩法,代码可以与之正面较量。

值得一提的是,DeepSeek V3另一大亮点在于采用MIT开源协议,上个版本还是自定义许可证。

这不仅可以自由修改、分发模型,还支持模型蒸馏、商业化应用。

网友让模型设计的天气页面(左由新版DeepSeek-V3生成;右由初代DeepSeek-V3生成)

2

开源普惠 VS 闭源壁垒

中国 AI 的 “非对称优势”

维度中国路径(DeepSeek)西方路径(OpenAI)
硬件依赖优化有限算力,适配昇腾910B等国产芯片依赖英伟达GPU集群
商业策略开源普惠,降低技术使用门槛闭源付费,构建生态壁垒
技术路线混合架构+动态负载均衡纯Transformer架构

DeepSeek 的突破揭示了中美AI竞争的新范式。在芯片受限背景下,中国团队通过算法优化实现反超。清华大学刘知远教授指出:“这种‘系统级创新效率’,正是中国 AI 的隐形竞争力。” 与西方纯Transformer架构不同,DeepSeek采用混合架构,结合动态负载均衡技术,在有限算力下实现性能突破。

将开源贯彻到底

DeepSeek此次以MIT许可证开源模型权重,允许免费商用与二次开发,与Claude 3.7 Sonnet等闭源模型的付费模式形成鲜明对比。这一策略直接冲击了OpenAI的盈利模式——后者GPT-5虽宣布免费开放,但仍依赖订阅制构建护城河。

此外GitHub上已涌现127个衍生工具,涵盖代码审查、网页生成等领域,某智能网页校对工具下载量突破5000次。

边缘计算崛起:IDC预测,到2026年,适配DeepSeek的边缘AI服务器市场规模将突破200亿美元。

R2蓄势待发,直指GPT-5

DeepSeek-V3-0324的发布被视为R2系列的前哨战。根据行业规律,R2或于 2025年4月推出,直接对标OpenAI的GPT-5。其技术路线聚焦三大方向:领域知识蒸馏(金融、医疗垂直优化)、多模态融合(Q3推出图文增强版)、推理能力升级(目标响应时间压缩至500ms以内)。