9月份,马斯克的xAI团队打造了一台拥有10万块英伟达H100显卡的超级计算机Colossus(巨象)。目前,这台超算已经运营了两个月了,并且在两周前已经开始训练AI模型了。
有意思的是,这座耗资数十亿美元的AI集群不仅规模庞大,其建设速度也堪称一绝,从开始到完工仅用122天。xAI Colossus已被视作一次工程奇迹,黄仁勋不吝啬溢美之词,也称这是“超人般的成就”,“此前从未有过这样的项目”。
据黄仁勋透露,xAI工程师们在19天内完成了xAI Colossus超算的搭建。通常来说,这种规模和复杂度的项目可能需要长达一年时间才行。熟悉马斯克的人肯定知道,这肯定是马斯克又一次在内部开启了狂飙模式,完成了不可能完成的任务。
目前完成的工作,还只是Colossus超算的第一阶段,马斯克表示,接下来,这台超算还会增加5万块H100和5万块H200。在同一建筑里构建起拥有20万块H100/H200 GPU的训练集群。这距离此前说的30万块H200还是有差距的。
根据英伟达所说,xAI Colossus是目前全球最大的AI超算。与许多用于气象、疾病研究等复杂计算任务的超算不同,Colossus专门用于训练X平台的各类AI模型,主要包括Grok 3。据了解,Colossus还在训练未来各种AI模型。
除了Colossus超算,特斯拉的超级工厂里还有一个叫Cortex的超级计算机,里面有5万块GPU,这台超算主要用来训练基于视觉的自动驾驶AI。此外,特斯拉还计划在纽约州建设一台名为Dojo的超算,这一项目价值5亿美元。