2 月 18 日,xAI 公司带来了令人瞩目的 Grok 3 基座大模型、推理 AI 模型 Grok3 mini 以及名为 Deepsearch 的 Grok 3 智能搜索引擎模型。
Grok 3 基座大模型可谓是 xAI 的 “秘密武器”。据介绍,Grok 3 在极短的时间内实现了功能比 Grok2 强大一个数量级,其在训练过程调用了 10 万个 Nvidia H100 芯片,较前代产品 Grok 2 实现了数倍的跨越式提升。

推理 AI 模型 Grok3 mini 也不容小觑。它和 Grok 3 在多方面性能上都超过或媲美 Gemini、DeepSeek 和 ChatGPT 等对手,在 MMLU 这一用于评估语言模型语言理解能力的基准测试中,展现出了强大的实力。
而名为 Deepsearch 的 Grok 3 智能搜索引擎模型更是一大亮点。Deepsearch 被 xAI 工程师定义为 “第一代广泛代理工具”,它不仅能帮助工程师、科研人员编写代码,还能为普通用户解答日常问题。
Grok 3 的训练硬件
据悉,Grok 3 在训练过程中调用了 10 万个 Nvidia H100 芯片。如此大规模的 GPU 集群为 Grok 3 提供了强大的计算能力,使其能够处理极其复杂的任务,相比前一代 Grok 2 使用的 15,000 个 GPU 实现了数倍的提升。
Grok 3 与 DeepSeek 的对比
性能测试:在 AIME’24 数学能力测试中,Grok-3 取得了 52 分,明显高于 DeepSeek-V3 的 39 分。在 GPQA 科学知识评估中,Grok-3 以 75 分领先 DeepSeek-V3 的 65 分。此外,在 LCB Oct – Feb 编程能力测试中,Grok-3 也以 57 分的成绩超越了 DeepSeek-V3 的 36 分。
成本与应用场景:Grok-3 属于重资产投入模式,而 DeepSeek R1 开源版本仅用了行业 1/50 的训练成本就实现了顶级性能,API 调用价格更是低至 0.001 元 / 千 Tokens。DeepSeek 在中文语义理解的准确性上有优势,并且在深圳福田区政务系统应用中,将办事流程压缩 60%,其在 “本土化场景” 方面具有强大的护城河。
功能特性:Grok 3 更像是一个全能选手,在对话和推理方面表现出色,能作为日常的对话伙伴,以幽默、轻松的方式与人类交流。而 DeepSeek 更像是专攻某一领域的高手,在处理复杂的分析任务或特定行业问题上特别厉害。
Grok 3 与 OpenAI 的对比
性能表现:据 xAI 称,Grok 3 在复杂推理任务中的表现优于 OpenAI 的 GPT-4o 等模型,但有 xAI 员工称 Grok 3 的编程能力优于 DeepSeek R1,但不及 OpenAI。
响应速度:Grok 3 在响应速度上表现出色,能够在微秒级别内给出回答,在处理复杂查询时几乎无延迟,与 OpenAI 的 GPT-4 相比,Grok 3 在速度上具有明显优势。
多语言能力:Grok 3 在处理多种语言方面表现出色,尤其是对亚洲语言的支持,能够理解地方俚语,并通过智能数据训练方法支持罕见语言。相比之下,OpenAI 的模型在多语言支持上仍有提升空间。
开源策略:与 OpenAI 的闭源模型不同,xAI 的 Grok 3 预计将继续沿用开源策略,这将使全球开发者能够自由访问和使用该模型,促进技术的快速传播和创新。
总之,Grok 3 的发布为 AI 领域带来了新的活力和竞争,与 DeepSeek、OpenAI 的产品各有千秋,未来 AI 领域的竞争和发展态势值得持续关注。