偷摸内卷，DeepSeek-V3深夜惊爆上新，将开源贯彻到底，R2发布指日可待？-DOIT-数据产业媒体与服务平台

导读

深夜突袭！DeepSeek-V3携6850亿参数“偷袭”代码界，Claude 3.7瑟瑟发抖？——AI基建再掀技术革命。

2025年3月25日，当全球AI巨头还在为发布会排期时，中国团队DeepSeek已悄然在Hugging Face上线了DeepSeek-V3-0324版本。这个没有预热、没有宣传的“深夜更新”，不仅以6850亿参数刷新国产模型纪录，更在代码生成、数学推理等领域实现“降维打击”，被开发者称为“Claude 3.7 Sonnet的隐形杀手”。

文字编辑｜宋雨涵

数据说话

看看V3和V3-0324有啥不一样

指标	DeepSeek V3（2024.12）	DeepSeek V3-0324（2025.03）	变化/说明
总参数	6710亿	6850亿	增加140亿参数，可能用于扩展模型深度或增强特定模块（如多任务处理层MTP）
每token激活参数	370亿	370亿	保持相同激活规模，推测未调整稀疏激活机制或专家混合策略
训练数据	14.8万亿token	14.8万亿token	数据量未变，可能复用原有数据集或通过数据蒸馏技术优化训练效率
训练成本	550万美元	550万美元（预估）	成本控制仍是亮点，可能通过优化训练流程或硬件利用率维持成本不变
推理速度	–	“X上称更快，未实锤”	社区传闻速度提升，需官方数据验证（可能涉及算子优化或硬件加速）
代码能力	–	超越Llama 3.1 405B	代码生成能力显著增强，接近更大模型（如Sonnet 3.5）表现
数学水平（MATH 500）	强	“用户称进步显著”	数学推理能力大幅提升，可能优化数学逻辑模块或增加数学领域预训练数据
上下文窗口	128K token	128K token	保持长文本处理能力，未扩展窗口长度

再来看看具体有哪些升级

相较于上一版，从一个球在超立方体弹跳的Python脚本，即可看出V3代码性能的改善。

甚至，它还能解锁Claude 3.7 Sonnet很多玩法，代码可以与之正面较量。

值得一提的是，DeepSeek V3另一大亮点在于采用MIT开源协议，上个版本还是自定义许可证。

这不仅可以自由修改、分发模型，还支持模型蒸馏、商业化应用。

网友让模型设计的天气页面（左由新版DeepSeek-V3生成；右由初代DeepSeek-V3生成）

开源普惠 VS 闭源壁垒

中国 AI 的 “非对称优势”

维度	中国路径（DeepSeek）	西方路径（OpenAI）
硬件依赖	优化有限算力，适配昇腾910B等国产芯片	依赖英伟达GPU集群
商业策略	开源普惠，降低技术使用门槛	闭源付费，构建生态壁垒
技术路线	混合架构+动态负载均衡	纯Transformer架构

DeepSeek 的突破揭示了中美AI竞争的新范式。在芯片受限背景下，中国团队通过算法优化实现反超。清华大学刘知远教授指出：“这种‘系统级创新效率’，正是中国 AI 的隐形竞争力。” 与西方纯Transformer架构不同，DeepSeek采用混合架构，结合动态负载均衡技术，在有限算力下实现性能突破。

将开源贯彻到底

DeepSeek此次以MIT许可证开源模型权重，允许免费商用与二次开发，与Claude 3.7 Sonnet等闭源模型的付费模式形成鲜明对比。这一策略直接冲击了OpenAI的盈利模式——后者GPT-5虽宣布免费开放，但仍依赖订阅制构建护城河。

此外GitHub上已涌现127个衍生工具，涵盖代码审查、网页生成等领域，某智能网页校对工具下载量突破5000次。

边缘计算崛起：IDC预测，到2026年，适配DeepSeek的边缘AI服务器市场规模将突破200亿美元。

R2蓄势待发，直指GPT-5

DeepSeek-V3-0324的发布被视为R2系列的前哨战。根据行业规律，R2或于 2025年4月推出，直接对标OpenAI的GPT-5。其技术路线聚焦三大方向：领域知识蒸馏（金融、医疗垂直优化）、多模态融合（Q3推出图文增强版）、推理能力升级（目标响应时间压缩至500ms以内）。

偷摸内卷，DeepSeek-V3深夜惊爆上新，将开源贯彻到底，R2发布指日可待？

lixiangjing

相关推荐

近期文章

热门标签