Andrej Karpathy的测评体验:Grok 3的能力与局限性

今天马斯克发布了AI大模型Grok 3,首先比较几点面向全球只要能用X(前推特)并且付费,二是有xAI的新Aurora模型提供支持图像生成功能很强,三以后会开源。

同一天,OpenAI创始成员之一,前特斯拉人工智能高级总监Andrej Karpathy作为早期Grok 3测试之一分享了自己的测评体验

文字有点主要总结就是

优点:

1. 思维模式强大

Grok 3的“思维模式”强大。它在解决类似《卡坦岛》游戏网页的任务时,能够生成一个简洁且功能完整的六边形棋盘网页。不仅能按要求生成,还能根据滑块调整环的数量,表现相当精准。与其他顶尖的模型相比,GroK 3在这类任务中的表现可靠。

我按他的六边形棋盘要求输入给deepseek得到的是这个:

2. 复杂计算推理是强项

给Grok 3提了一个数学问题——估算训练GPT-2所需的FLOP数。很多模型在面对这样的计算推理时都会陷入困境,但Grok 3不仅没有直接放弃,反而提供了一个相对精确的估算过程。它通过一定的推理和计算,正确估算了大概的训练量,这是许多模型无法做到的。

还有就是,Grok 3并没有回避困难的数学问题。提出黎曼猜想问题,它并没有立即回避,而是尝试解答。

缺点

1. 一些简单的解码问题难倒它

我给Grok 3出了一道关于表情符号的“谜题”,涉及Unicode变体选择符。虽然给了它提示,尤其是一些Rust代码来解码,它依然没解答出来。相比之下,DeepSeek-R1在这方面进展稍好,能部分解码。因此,某些细节的处理上,Grok 3还有待改进。

2. 生成图像时仍显生硬

在SVG图像生成方面,Grok 3的表现有些“拗口”。例如,要求它生成一个骑着自行车的鹈鹕的SVG时,结果虽然看得出有鹈鹕,但依然显得有些不自然,排列不尽人意。相比之下,Claude在这方面的表现稍好一点。