Andrej Karpathy的测评体验：Grok 3的能力与局限性-DOIT-数据产业媒体与服务平台

今天马斯克发布了AI大模型Grok 3，首先比较好几点，一是面向全球，只要你能用X(前推特)并且付费，二是有xAI的新Aurora模型提供支持图像生成功能很强，三以后会开源。

同一天，OpenAI创始成员之一，前特斯拉人工智能高级总监Andrej Karpathy作为早期Grok 3测试者之一分享了自己的测评体验：

文字有点长，主要总结就是：

优点：

1. 思维模式强大

Grok 3的“思维模式”强大。它在解决类似《卡坦岛》游戏网页的任务时，能够生成一个简洁且功能完整的六边形棋盘网页。不仅能按要求生成，还能根据滑块调整环的数量，表现相当精准。与其他顶尖的模型相比，GroK 3在这类任务中的表现可靠。

我按他的六边形棋盘要求输入给deepseek得到的是这个：

2. 复杂计算推理是强项

给Grok 3提了一个数学问题——估算训练GPT-2所需的FLOP数。很多模型在面对这样的计算推理时都会陷入困境，但Grok 3不仅没有直接放弃，反而提供了一个相对精确的估算过程。它通过一定的推理和计算，正确估算了大概的训练量，这是许多模型无法做到的。

还有就是，Grok 3并没有回避困难的数学问题。提出黎曼猜想问题，它并没有立即回避，而是尝试解答。

缺点

1. 一些简单的解码问题难倒它

我给Grok 3出了一道关于表情符号的“谜题”，涉及Unicode变体选择符。虽然给了它提示，尤其是一些Rust代码来解码，它依然没解答出来。相比之下，DeepSeek-R1在这方面进展稍好，能部分解码。因此，某些细节的处理上，Grok 3还有待改进。

2. 生成图像时仍显生硬

在SVG图像生成方面，Grok 3的表现有些“拗口”。例如，要求它生成一个骑着自行车的鹈鹕的SVG时，结果虽然看得出有鹈鹕，但依然显得有些不自然，排列不尽人意。相比之下，Claude在这方面的表现稍好一点。

Andrej Karpathy的测评体验：Grok 3的能力与局限性