DeepSeek-R1令全网为之欢呼，性能比肩o1，价格只有其1/50，国产大模型要变天了！-DOIT-数据产业媒体与服务平台

导读

被誉为国产之光、AI界的“拼多多”的DeepSeek开源模型团队，在成功推出V3模型后，再次震撼发布了一款名为R1的顶尖模型，令国内外开发者为之振奋。

2024年末，DeepSeek-V3一经上线，便在AI领域掀起波澜，吸引了全球开发者的广泛关注。其性能直逼GPT-4，但服务价格仅为后者的十分之一，且整个训练成本控制在557.6万美元，这一成就让业界为之惊叹。

如今，DeepSeek最新推出的推理模型DeepSeek-R1，其性能与OpenAI的o1正式版不相上下，而服务价格更是仅为o1的约3%。更为难能可贵的是，DeepSeek团队慷慨地将R1模型训练中的技术创新全部公开，旨在促进技术社区之间的深入交流与协同创新。

DeepSeek-R1模型发布后不到一天，其在GitHub上发布的论文便迅速积累了超过5000次收藏。同时，相关话题在YC黑客新闻、Reddit及X等多个平台上引发热烈讨论，互动量已轻松突破万次大关。

文字编辑｜宋雨涵

性能对齐OpenAI-o1正式版

强大的推理能力

根据DeepSeek官方发布的数据，DeepSeek-R1模型在数学、代码编写以及自然语言推理等多项任务上的表现，与OpenAI的o1正式版不相上下。尤为引人注目的是，DeepSeek-R1在大规模强化学习（RL）过程中，自然展现出了强大的推理能力和一系列有趣的推理行为，且这一切均是在未进行有监督微调（SFT）的情况下实现的。

从用户的体验反馈和DeepSeek官方的介绍中了解到，DeepSeek-R1目前在通用性、多语言能力、提示工程以及软件工程能力这四个关键领域面临着一定的挑战。这些挑战导致该模型在函数调用、复杂角色扮演等特定任务上的表现尚未达到人们的预期水准。

不过，DeepSeek采取了即发布即上线的策略，用户现已能在DeepSeek的官方网站和App上免费体验这款模型。此外，用户还可以通过API接口使用DeepSeek-R1，其费用仅为每百万tokens输出16元，这相当于OpenAI o1价格的3.7%。

训练技术大改变

大规模强化学习（RL）代替监督微调（SFT）

对于预训练的大型语言模型而言，监督微调（SFT）历来被视为一个至关重要的训练步骤。SFT通常涉及使用大量人工标注的数据进行初步训练，随后再通过强化学习进行进一步的自我优化。过去，提升模型性能往往高度依赖于丰富的监督数据。然而，本研究却揭示了一个新发现：即便不依赖监督微调（SFT）来启动模型，仅通过大规模强化学习，也能显著增强模型的推理能力。更令人兴奋的是，若在此基础上加入少量冷启动数据，模型性能还能得到进一步提升。

DeepSeek-R1-Zero便是这一理念的直接体现，它直接在基础模型上应用了强化学习（RL），而无需任何SFT数据。要知道，SFT曾是ChatGPT等模型成功的关键因素，但R1 Zero却创新性地用RL替代了SFT。

在AIME 2024基准测试中，DeepSeek-R1-Zero在RL训练期间的性能变化图展示了其卓越的表现。随着RL训练的逐步深入，DeepSeek-R1-Zero的性能不仅保持稳定，还持续得到了提升，这有力地证明了RL算法的有效性。

通过对比分析DeepSeek-R1-Zero与OpenAI的o1-0912模型在多项推理基准测试中的表现，可以清晰地看出，即便没有监督微调数据，依靠RL训练的DeepSeek-R1-Zero依然展现出了强大的推理能力。这一成果意义重大，它表明模型完全有可能仅通过RL就实现学习和泛化，从而开辟了新的训练路径和可能性。

R1数据蒸馏模型

另外，DeepSeek-R1蒸馏出了六个小模型，参数从小到大分别为1.5B、7B、8B、14B、32B以及70B。这六个模型同样完全开源，旨在回馈开源社区，推动“Open AI”的边界。

模型下载地址：https://huggingface.co/deepseek-ai?continueFlag=f18057c998f54575cb0608a591c993fb

性能方面，蒸馏后的R1 32B和70B版本远远超过了GPT-4o、Claude 3.5 Sonnet和QwQ-32B，并逼近o1-mini。

结语

开源不仅是技术上的“开放”，更是对商业和产业链上下游合作的重新定义。它打破了传统技术垄断的壁垒，为更多创新提供了诞生的土壤。在开源的世界里，全球的开发者可以共同参与进来，分享知识、交流经验、探索人工智能的下一个边界。

DeepSeek-R1的低价和开源战略，不仅是对开源精神的传承和发扬，更是在构建一个更加开放和包容的AI生态。它让更多的人有机会接触到先进的人工智能技术，让更多的创新思想得以碰撞和融合。

DeepSeek等开源厂商的努力，不仅仅是为了自身的利益，更是为了全人类的共同进步。它们相信，只有开放和共享，才能推动人工智能技术的快速发展，才能让AGI的时代早日到来。在DeepSeek等开源模型厂商的共同努力下，一个全人类共同为AGI奋斗的时代，似乎离我们不远了。

DeepSeek-R1令全网为之欢呼，性能比肩o1，价格只有其1/50，国产大模型要变天了！

lixiangjing

相关推荐

近期文章

热门标签