导读
深夜突袭!DeepSeek-V3携6850亿参数“偷袭”代码界,Claude 3.7瑟瑟发抖?——AI基建再掀技术革命。

2025年3月25日,当全球AI巨头还在为发布会排期时,中国团队DeepSeek已悄然在Hugging Face上线了DeepSeek-V3-0324版本。这个没有预热、没有宣传的“深夜更新”,不仅以6850亿参数刷新国产模型纪录,更在代码生成、数学推理等领域实现“降维打击”,被开发者称为“Claude 3.7 Sonnet的隐形杀手”。
文字编辑|宋雨涵
1
数据说话
看看V3和V3-0324有啥不一样
指标 | DeepSeek V3(2024.12) | DeepSeek V3-0324(2025.03) | 变化/说明 |
总参数 | 6710亿 | 6850亿 | 增加140亿参数,可能用于扩展模型深度或增强特定模块(如多任务处理层MTP) |
每token激活参数 | 370亿 | 370亿 | 保持相同激活规模,推测未调整稀疏激活机制或专家混合策略 |
训练数据 | 14.8万亿token | 14.8万亿token | 数据量未变,可能复用原有数据集或通过数据蒸馏技术优化训练效率 |
训练成本 | 550万美元 | 550万美元(预估) | 成本控制仍是亮点,可能通过优化训练流程或硬件利用率维持成本不变 |
推理速度 | – | “X上称更快,未实锤” | 社区传闻速度提升,需官方数据验证(可能涉及算子优化或硬件加速) |
代码能力 | – | 超越Llama 3.1 405B | 代码生成能力显著增强,接近更大模型(如Sonnet 3.5)表现 |
数学水平(MATH 500) | 强 | “用户称进步显著” | 数学推理能力大幅提升,可能优化数学逻辑模块或增加数学领域预训练数据 |
上下文窗口 | 128K token | 128K token | 保持长文本处理能力,未扩展窗口长度 |
再来看看具体有哪些升级
相较于上一版,从一个球在超立方体弹跳的Python脚本,即可看出V3代码性能的改善。
甚至,它还能解锁Claude 3.7 Sonnet很多玩法,代码可以与之正面较量。
值得一提的是,DeepSeek V3另一大亮点在于采用MIT开源协议,上个版本还是自定义许可证。
这不仅可以自由修改、分发模型,还支持模型蒸馏、商业化应用。
网友让模型设计的天气页面(左由新版DeepSeek-V3生成;右由初代DeepSeek-V3生成)
2
开源普惠 VS 闭源壁垒
中国 AI 的 “非对称优势”
维度 | 中国路径(DeepSeek) | 西方路径(OpenAI) |
硬件依赖 | 优化有限算力,适配昇腾910B等国产芯片 | 依赖英伟达GPU集群 |
商业策略 | 开源普惠,降低技术使用门槛 | 闭源付费,构建生态壁垒 |
技术路线 | 混合架构+动态负载均衡 | 纯Transformer架构 |
DeepSeek 的突破揭示了中美AI竞争的新范式。在芯片受限背景下,中国团队通过算法优化实现反超。清华大学刘知远教授指出:“这种‘系统级创新效率’,正是中国 AI 的隐形竞争力。” 与西方纯Transformer架构不同,DeepSeek采用混合架构,结合动态负载均衡技术,在有限算力下实现性能突破。
将开源贯彻到底
DeepSeek此次以MIT许可证开源模型权重,允许免费商用与二次开发,与Claude 3.7 Sonnet等闭源模型的付费模式形成鲜明对比。这一策略直接冲击了OpenAI的盈利模式——后者GPT-5虽宣布免费开放,但仍依赖订阅制构建护城河。
此外GitHub上已涌现127个衍生工具,涵盖代码审查、网页生成等领域,某智能网页校对工具下载量突破5000次。
边缘计算崛起:IDC预测,到2026年,适配DeepSeek的边缘AI服务器市场规模将突破200亿美元。
R2蓄势待发,直指GPT-5
DeepSeek-V3-0324的发布被视为R2系列的前哨战。根据行业规律,R2或于 2025年4月推出,直接对标OpenAI的GPT-5。其技术路线聚焦三大方向:领域知识蒸馏(金融、医疗垂直优化)、多模态融合(Q3推出图文增强版)、推理能力升级(目标响应时间压缩至500ms以内)。