在320亿参数规模下击败DeepSeek – R1的性能?《英国卫报》深入探究阿里巴巴的QwQ;实践探索:强化学习以及一点额外的验证能在多大程度上提升大型语言模型(LLMs)?阿里巴巴的通义团队希望通过其最新发布的QwQ来找出答案。
尽管阿里巴巴的模型参数仅为DeepSeek R1所宣称的6710亿参数的一小部分,但该公司称其相对紧凑的320亿参数“推理”模型在某些数学、编码和函数调用基准测试中表现优于R1。
与R1非常相似,通义团队使用强化学习对QwQ进行了微调,以提高其用于问题分析和分解的思维链推理能力。这种方法通常通过奖励模型的正确答案来强化逐步推理,鼓励更准确的响应。然而,对于QwQ,该团队还集成了一个所谓的准确性验证器和一个代码执行服务器,以确保仅对正确的数学解决方案和功能性代码给予奖励。
通义团队声称,这样做的结果是得到了一个表现远超其规模的模型,其性能与更大规模的模型相当,在某些情况下甚至超过了它们。
然而,人工智能基准测试并不总是像它们看起来那样。所以,让我们来看看这些说法在现实世界中是否成立,然后我们将向你展示如何启动和运行QwQ,以便你自己进行测试。
它的表现如何?
我们对QwQ进行了一系列测试提示,范围从常识到空间推理、问题解决、数学以及其他即使是最优秀的大型语言模型也会犯错的问题。
由于完整模型需要大量内存,我们以两种配置进行测试,以满足内存充足和不足的用户。首先,我们使用Hugging Face上的QwQ演示来评估完整模型。然后,我们在24GB的GPU(英伟达3090或AMD Radeon RX 7900XTX)上测试了一个4位量化版本,以评估量化对准确性的影响。对于大多数常识性问题,我们发现QwQ的表现与DeepSeek的6710亿参数的R1以及其他推理模型(如OpenAI的o3 – 迷你模型)相似,在给出查询答案之前,它会花费几秒钟来整理思路。
不出所料,该模型在处理更复杂的逻辑、编码或数学挑战时表现出色,所以在讨论它的一些弱点之前,我们将重点关注这些方面。
DeepSeek的R1及其320亿参数的蒸馏模型则并非如此。这两个模型都能够解决第一个迷宫,但R1在完成第二个迷宫时遇到了困难,而320亿参数的蒸馏模型十次中有九次能够正确解决。考虑到R1和蒸馏模型使用了完全不同的基础模型,这种差异程度并不太令人惊讶。
虽然QwQ在这次测试中表现优于DeepSeek,但我们确实观察到我们的4位模型有一些奇怪的行为,它完成测试所需的“思考”标记几乎是其他模型的两倍。起初,这似乎是由于量化相关的损失 – 我们在这里探讨过这个挑战。但事实证明,量化模型一开始就有问题。在调整了超参数 – 别担心,我们稍后会告诉你如何修复这些参数 – 并再次运行测试后,问题就消失了。
一次生成代码的冠军?
自推出以来,QwQ引起了网民的极大兴趣,他们好奇该模型是否能在所谓的一次性测试中首次尝试就生成可用的代码。而这个特殊的挑战对于该模型来说似乎确实是一个亮点。
我们要求该模型使用Python的Pygame库重新创建一些相对简单的游戏,即《乒乓》《打砖块》《小行星》和《飞扬的小鸟》。《乒乓》和《打砖块》对QwQ来说并不是什么挑战。经过几分钟的“工作”,该模型就输出了每个游戏的可用版本。