DeepSeek-R1令全网为之欢呼,性能比肩o1,价格只有其1/50,国产大模型要变天了!

导读

被誉为国产之光、AI界的“拼多多”的DeepSeek开源模型团队,在成功推出V3模型后,再次震撼发布了一款名为R1的顶尖模型,令国内外开发者为之振奋。

2024年末,DeepSeek-V3一经上线,便在AI领域掀起波澜,吸引了全球开发者的广泛关注。其性能直逼GPT-4,但服务价格仅为后者的十分之一,且整个训练成本控制在557.6万美元,这一成就让业界为之惊叹。

如今,DeepSeek最新推出的推理模型DeepSeek-R1,其性能与OpenAI的o1正式版不相上下,而服务价格更是仅为o1的约3%。更为难能可贵的是,DeepSeek团队慷慨地将R1模型训练中的技术创新全部公开,旨在促进技术社区之间的深入交流与协同创新。

DeepSeek-R1模型发布后不到一天,其在GitHub上发布的论文便迅速积累了超过5000次收藏。同时,相关话题在YC黑客新闻、Reddit及X等多个平台上引发热烈讨论,互动量已轻松突破万次大关。

文字编辑| 宋雨涵

1

性能对齐OpenAI-o1正式版

强大的推理能力

根据DeepSeek官方发布的数据,DeepSeek-R1模型在数学、代码编写以及自然语言推理等多项任务上的表现,与OpenAI的o1正式版不相上下。尤为引人注目的是,DeepSeek-R1在大规模强化学习(RL)过程中,自然展现出了强大的推理能力和一系列有趣的推理行为,且这一切均是在未进行有监督微调(SFT)的情况下实现的。

从用户的体验反馈和DeepSeek官方的介绍中了解到,DeepSeek-R1目前在通用性、多语言能力、提示工程以及软件工程能力这四个关键领域面临着一定的挑战。这些挑战导致该模型在函数调用、复杂角色扮演等特定任务上的表现尚未达到人们的预期水准。

不过,DeepSeek采取了即发布即上线的策略,用户现已能在DeepSeek的官方网站和App上免费体验这款模型。此外,用户还可以通过API接口使用DeepSeek-R1,其费用仅为每百万tokens输出16元,这相当于OpenAI o1价格的3.7%。

2

训练技术大改变

大规模强化学习(RL)代替监督微调(SFT)

对于预训练的大型语言模型而言,监督微调(SFT)历来被视为一个至关重要的训练步骤。SFT通常涉及使用大量人工标注的数据进行初步训练,随后再通过强化学习进行进一步的自我优化。过去,提升模型性能往往高度依赖于丰富的监督数据。然而,本研究却揭示了一个新发现:即便不依赖监督微调(SFT)来启动模型,仅通过大规模强化学习,也能显著增强模型的推理能力。更令人兴奋的是,若在此基础上加入少量冷启动数据,模型性能还能得到进一步提升。

DeepSeek-R1-Zero便是这一理念的直接体现,它直接在基础模型上应用了强化学习(RL),而无需任何SFT数据。要知道,SFT曾是ChatGPT等模型成功的关键因素,但R1 Zero却创新性地用RL替代了SFT。

在AIME 2024基准测试中,DeepSeek-R1-Zero在RL训练期间的性能变化图展示了其卓越的表现。随着RL训练的逐步深入,DeepSeek-R1-Zero的性能不仅保持稳定,还持续得到了提升,这有力地证明了RL算法的有效性。

通过对比分析DeepSeek-R1-Zero与OpenAI的o1-0912模型在多项推理基准测试中的表现,可以清晰地看出,即便没有监督微调数据,依靠RL训练的DeepSeek-R1-Zero依然展现出了强大的推理能力。这一成果意义重大,它表明模型完全有可能仅通过RL就实现学习和泛化,从而开辟了新的训练路径和可能性。

3

R1数据蒸馏模型

另外,DeepSeek-R1蒸馏出了六个小模型,参数从小到大分别为1.5B、7B、8B、14B、32B以及70B。这六个模型同样完全开源,旨在回馈开源社区,推动“Open AI”的边界。

模型下载地址:https://huggingface.co/deepseek-ai?continueFlag=f18057c998f54575cb0608a591c993fb

性能方面,蒸馏后的R1 32B和70B版本远远超过了GPT-4o、Claude 3.5 Sonnet和QwQ-32B,并逼近o1-mini。

结语

开源不仅是技术上的“开放”,更是对商业和产业链上下游合作的重新定义。它打破了传统技术垄断的壁垒,为更多创新提供了诞生的土壤。在开源的世界里,全球的开发者可以共同参与进来,分享知识、交流经验、探索人工智能的下一个边界。

DeepSeek-R1的低价和开源战略,不仅是对开源精神的传承和发扬,更是在构建一个更加开放和包容的AI生态。它让更多的人有机会接触到先进的人工智能技术,让更多的创新思想得以碰撞和融合。

DeepSeek等开源厂商的努力,不仅仅是为了自身的利益,更是为了全人类的共同进步。它们相信,只有开放和共享,才能推动人工智能技术的快速发展,才能让AGI的时代早日到来。在DeepSeek等开源模型厂商的共同努力下,一个全人类共同为AGI奋斗的时代,似乎离我们不远了。