DeepSeek R1震撼世界,Meta团队连夜抄作业

惨烈的全球AI竞赛中,一个名不见经传的中国创业公司杀出重围。

没错,就是DeepSeek。

DeepSeek最近推出的DeepSeek R1,在数学、编程和推理任务上的表现,完全可以匹敌OpenAI o1。更重要的是,DeepSeek R1极大降低了使用成本,比o1低90%至95%

DeepSeek R1采用了与ChatGPT o1相似的“思维链”方法,通过逐步推理来解决复杂任务,特别擅长数学和编程领域的问题。这种方法不仅提高了模型的效率,还显著降低了运算时间,同时保持了高水平的准确性。

那么DeepSeek R1到底有多强呢?

一个外国网友比较OpenAI o1和DeepSeek R1。他要求这两个模型实现一个内含红球的旋转三角形。他使用的提示是:“编写一个Python脚本,使一个红色弹跳球在三角形内运动,确保正确处理碰撞。让三角形慢慢旋转。用Python实现。确保球始终留在三角形内。”,时长00:03

从视频中我们可以看到DeepSeek R1的非凡实力。

AI大佬杨立昆也在社交媒体表达了对DeepSeek的看法,说“中国在AI领域超越了美国”的理解是错误的,正确的理解应该是“开源模型正在超越闭源模型。”

让DeepSeek R1杀出重围的武器:GRPO

DeepSeek R1使用GRPO技术在V3基础模型上训练出了R1-Zero。在这个过程中,它并没有使用蒙特卡洛树搜索或过程奖励建模,这使得模型更为精简且高效。

GRPO是一种强化学习算法

在传统的强化学习中,模型根据环境提供的奖励信号来调整其行为。这个过程通常还需要另一个“批评模型”来评估当前策略的效果。然而,训练批评模型既复杂又会消耗大量计算资源。

而GRPO简化了这一流程。它不依赖批评模型,而是通过比较同组策略输出的相对奖励来优化策略模型。具体来说,GRPO通过对当前策略产生的一系列输出进行采样,并根据这些输出的表现相对优劣来调整策略。

此外,在处理答案的反思和重新评估时,模型利用了所谓的“Aha时刻”作为关键节点。为了解决R1-Zero版本的可读性问题,开发团队在冷启动数据上进行了SFT。 2
 DeepSeek R1与OpenAI o1的基准性能比较

在数学方面,DeepSeek R1表现出色。在AIME 2024中,它评估了复杂的多步骤数学推理能力,DeepSeek R1的得分为79.8%,略高于o1的79.2%。在MATH-500中,DeepSeek R1以97.3%的成绩领先,超过o1的96.4%。这个测试评估了模型在多样化的高中级数学问题上的详细推理能力。

在编程方面,DeepSeek R1与OpenAI o1不相上下。Codeforces测试中,o1以96.6%微微领先,而DeepSeek R1为96.3%,表现也不逊色。SWE-bench Verified测试评估软件工程任务中的推理能力。DeepSeek R1的49.2%成绩略高于o1的48.9%。

在事实推理方面,o1略胜一筹。GPQA Diamond测试评估模型回答通用知识问题的能力。DeepSeek R1的得分为71.5%,略低于o1的75.7%。在MMLU测试中,o1以91.8%的成绩略胜DeepSeek R1的90.8%。这个测试涵盖各个学科并评估多任务语言理解能力

DeepSeek R1的实力与o1不相上下,但DeepSeek R1的开源性和极低成本使其成为了一个远比o1更有吸引力的选择。3
 DeepSeek的故事:制裁中突出重围

DeepSeek的故事始于2023年7月,浙江大学信息与电子工程专业的校友梁文锋创立了这家公司。

公司的成立,得益于梁文锋早年的前瞻性和远见。在预见到美国可能对中国实施更严格的技术制裁之前,梁在他的对冲基金High-Flyer的支持下,大量囤积了Nvidia A100芯片,这种芯片后来被美国禁止出口到中国。

面对芯片短缺的困境,DeepSeek没有选择退缩,反而激发了他们创新的潜能。他们重新设计了模型训练流程,减轻了对GPU的依赖。这种GPU在中国市场的性能被限制在其顶级产品的一半。尽管如此,R1模型仍能展示出卓越的计算效率和成本效益。

尽管面对外部压力,DeepSeek和其他中国AI公司如何在有限的计算资源下寻求效率的提升,已经成为一个行业议题。就像图夫茨大学教授Thomas Qitong Cao所言:“这种外部压力逼迫中国公司必须更加高效地使用他们有限的计算资源。”

未来,我们可能会看到中国的AI行业在这种压力下的进一步整合和发展。

(来源:机器人茶馆)