导读
在2024年12月26日,素有“AI领域拼多多”之称的DeepSeek公司,正式推出了其最新系列的模型——DeepSeek-V3的首个版本,并同时宣布该版本将面向公众开源。
这个新型人工智能模型配备了高达6710亿个参数,但得益于其创新的MOE(混合专家)架构设计,它能根据具体任务需求智能地激活相关参数。在处理每个词元时,它仅需激活约370亿参数,从而实现了高效且精准的任务处理能力。
DeepSeek-V3的此次发布在业界引发了广泛关注与振奋,这不仅因为它是一款开源模型,更重要的是,测试数据表明,其性能已经超越了诸如Meta的Llama 3.1-405B和阿里Qwen等主流开源模型,甚至在某种程度上逼近了Anthropic和OpenAI等封闭模型的性能水平,显著缩短了开源与闭源AI之间的性能差距。
文字编辑| 宋雨涵
1
开发成本只有557万美元的DeepSeek-V3,
有哪些亮点?
DeepSeek-V3架构
和前代DeepSeek-V2一样,新发布的超大模型仍然基于多头潜在注意力(MLA)和 DeepSeekMoE 架构。这种设计确保模型在训练和推理时保持高效,通过专用和共享的“专家”(模型中的独立小型神经网络)机制,每次处理一个词元时激活6710亿参数中的370亿个。
DeepSeek-V3 架构图
DeepSeek-V3还引入了两项创新
除了延续基础架构保证强大性能外,DeepSeek-V3还引入了两项创新:
- 无辅助损失的负载均衡策略:通过动态监控并调整专家的工作负载,让它们均衡运行,同时不影响整体模型性能。
- 多词元预测(MTP):支持模型同时预测多个未来词元。
这一创新不仅提高了训练效率,还让模型的生成速度提升了三倍,从20TPS大幅提高至60TPS,每秒能生成60个token。
成本被压缩到1%
总体而言,在预训练阶段,DeepSeek-V3处理1万亿个词元所需的H800 GPU时间为18万小时,若采用配备2048块H800 GPU的集群进行加速,则整个预训练过程可在短短3.7天内完成。这一阶段的总耗时不超过两个月,累计消耗了266.4万GPU小时。
此外,上下文长度的扩展额外耗费了11.9万GPU小时,而后期的训练工作(包括监督微调和强化学习等)则消耗5000GPU小时。因此,DeepSeek-V3的总训练时长达到了278.8万GPU小时。
若以每GPU小时2美元的成本计算,该模型的整体训练费用约为557.6万美元。需要注意的是,这一费用仅涵盖了正式训练阶段的开支,并未包括前期在模型架构设计、算法开发以及数据处理等方面的研究与消融实验费用。然而,相较于通常训练大型语言模型所需的数亿美元成本,DeepSeek-V3的训练成本显得相对较低。例如,据估计,Llama-3.1的训练成本超过了5亿美元。
2
一经开源发布,引发热烈关注
AI圈激烈讨论,众说纷纭
AI科学家Andrej Karpathy,作为OpenAI的初创成员之一,对DeepSeek-V3的超低训练成本感到震惊,他指出:“在资源有限的情况下,这无疑是一项令人瞩目的研究与工程壮举。”Karpathy认为,实现这种级别的能力原本预计需要接近16K GPU的集群,而现在DeepSeek-V3所提出的集群规模却接近100K GPU。这是否预示着前沿大型语言模型(LLM)不再依赖于超大规模的GPU集群?
在AI领域激烈的竞争中,资源约束被视作一种积极的驱动力。领导英伟达具身AI团队的高级研究科学家Jim Fan,曾师从李飞飞教授,他对此表示赞同:“资源限制实际上是一件好事。在竞争激烈的AI领域,生存的本能是推动我们取得突破的关键动力。”
此外,关于DeepSeek-V3采用H800 GPU实现低训练成本的话题,也引发了网友对美国芯片出口管制的讨论。数据科学家、Kaggle知名用户Bojan Tunguz评论道:“对所有高端半导体实施的出口禁令,可能会以最糟糕的方式适得其反。这些禁令似乎促使中国研究人员变得更加聪明和节俭。这也似乎印证了我的猜想,即我们离掌握AI机器学习领域的最佳算法还有很长的路要走。”
12月27日,奥特曼在推特上突然发表言论,称“创新和冒险的行为远比复制已知的成功要艰难得多”。
鉴于发布时间和DeepSeek-V3的讨论热度,不少人解读这是在阴阳DeepSeek。
全网热烈实测中
尽管DeepSeek-V3的训练成本相对较低,但它却迅速崛起,成为了当前市场上性能最强的开源大型模型之一。为了验证其AI性能,该公司进行了一系列基准测试,并将DeepSeek-V3与其他领先的开源模型,如Llama-3.1-405B和通义千问的Qwen 2.5-72B,进行了对比。结果显示,DeepSeek-V3在多数基准测试中均展现出了优于这些模型的表现,甚至在某些测试中,它的表现还超过了闭源的GPT-4o模型。仅在以英语为主要考察内容的SimpleQA和FRAMES测试中,DeepSeek-V3的成绩略低于OpenAI模型,分别为24.9分和73.3分,而OpenAI模型则分别获得了38.2分和80.5分。
然而,DeepSeek-V3在以中文和数学为主要考察内容的基准测试中表现尤为突出,其得分高于所有同类大型模型。特别是在Math-500测试中,DeepSeek-V3以90.2分的高分远超第二名Qwen的80分。
目前,能够与DeepSeek-V3一较高下的模型可能仅有Anthropic的o1和Claude 3.5 Sonnet。据悉,在GPQA Diamond(博士级科学问题)基准测试中,o1以76%的分数领先,而DeepSeek则以59.1%的分数紧随其后。此外,o1的完整版在多项基准测试中均击败了DeepSeek。同样,Claude 3.5 Sonnet也在MMLU-Pro、IF-Eval、GPQA-Diamond、SWE Verified和Aider-Edit等测试中,以更高的分数超越了DeepSeek-V3。
写在最后
在中国众多致力于大模型创新的初创企业中,Deepseek展现了一条独树一帜的发展路径。这家企业以“深度求索”为中文名,是由知名私募机构幻方量化孕育出的子公司。2023年4月,幻方宣布组建新团队,集中优势资源,全力探索通用人工智能(AGI)的本质,并在短短一年多时间内取得了显著进展。幻方自成立之初便表明,其长期将营业收入的大部分投入到人工智能领域,旨在构建顶尖的AI硬件基础设施,开展大规模研究,以揭开人类尚未触及的智慧面纱。
与那些获得大型科技公司投资的AI初创企业,如月之暗面、智谱AI、Minimax、百川智能等相比,DeepSeek并未直接依附于任何科技巨头。然而,在算力储备方面,DeepSeek却毫不逊色于这些大厂。有云计算领域的专家指出,拥有1万枚英伟达A100芯片是构建AI大模型的算力基准。当中国的云服务商因GPU芯片供应紧张而受限时,幻方却早已预见性地布局了大模型赛道。据报道,除了商汤科技、百度、腾讯、字节跳动、阿里巴巴等科技巨擘外,幻方也掌握了超过1万枚GPU。
幻方量化和Deepseek的创始人梁文锋在接受媒体采访时透露,幻方对算力的积累并非一蹴而就。早在2019年,幻方便已斥资2亿元自主研发深度学习训练平台“萤火一号”,该平台配备了1100块GPU。至2021年,“萤火二号”的投资额更是飙升至10亿元,搭载了大约1万张英伟达A100显卡。就在这一年后,OpenAI推出了ChatGPT的公开测试版,从而在全球范围内掀起了一股新的AI热潮。