今天马斯克发布了AI大模型Grok 3,首先比较好几点,一是面向全球,只要你能用X(前推特)并且付费,二是有xAI的新Aurora模型提供支持图像生成功能很强,三以后会开源。
同一天,OpenAI创始成员之一,前特斯拉人工智能高级总监Andrej Karpathy作为早期Grok 3测试者之一分享了自己的测评体验:

文字有点长,主要总结就是:
优点:
1. 思维模式强大
Grok 3的“思维模式”强大。它在解决类似《卡坦岛》游戏网页的任务时,能够生成一个简洁且功能完整的六边形棋盘网页。不仅能按要求生成,还能根据滑块调整环的数量,表现相当精准。与其他顶尖的模型相比,GroK 3在这类任务中的表现可靠。
我按他的六边形棋盘要求输入给deepseek得到的是这个:


2. 复杂计算推理是强项
给Grok 3提了一个数学问题——估算训练GPT-2所需的FLOP数。很多模型在面对这样的计算推理时都会陷入困境,但Grok 3不仅没有直接放弃,反而提供了一个相对精确的估算过程。它通过一定的推理和计算,正确估算了大概的训练量,这是许多模型无法做到的。
还有就是,Grok 3并没有回避困难的数学问题。提出黎曼猜想问题,它并没有立即回避,而是尝试解答。
缺点
1. 一些简单的解码问题难倒它
我给Grok 3出了一道关于表情符号的“谜题”,涉及Unicode变体选择符。虽然给了它提示,尤其是一些Rust代码来解码,它依然没解答出来。相比之下,DeepSeek-R1在这方面进展稍好,能部分解码。因此,某些细节的处理上,Grok 3还有待改进。
2. 生成图像时仍显生硬
在SVG图像生成方面,Grok 3的表现有些“拗口”。例如,要求它生成一个骑着自行车的鹈鹕的SVG时,结果虽然看得出有鹈鹕,但依然显得有些不自然,排列不尽人意。相比之下,Claude在这方面的表现稍好一点。
