导读
智元机器人于2025年3月10日正式发布首个通用具身基座大模型GO-1(Genie Operator-1),该模型由智元机器人联合上海AI Lab共同开发,由联合创始人兼CTO稚晖君(彭志辉)领衔。

GO-1开创性地提出Vision-Language-Latent-Action(ViLLA)架构,通过预测隐式动作标记(Latent Action Tokens),弥合了图像-文本输入与机器人执行动作之间的鸿沟。其架构由多模态大模型(VLM)和混合专家系统(MoE)组成:VLM采用InternVL-2B,接收多视角视觉、力觉信号和语言输入,实现通用场景感知;MoE中的Latent Planner预测隐式动作规划链,Action Expert则生成精细动作序列。
文字编辑| 宋雨涵
1
首个通用具身基座模型GO-1
核心能力与技术突破
智元推出了Vision-Language-Latent-Action(ViLLA)架构,这一架构融合了VLM(多模态大模型)与MoE(混合专家系统)。智元的启元大模型GO-1,通过吸纳人类及多种机器人的数据,赋予了机器人强大的学习能力,使其能够灵活应用于各种环境和物品中,迅速适应新任务、掌握新技能。此外,GO-1还支持部署至各类机器人平台,并在实际应用中不断进化升级。
在智元的机器人服务场景中,举一个具体例子:当用户向机器人发出“挂衣服”的指令时,GO-1模型能够根据当前视觉画面,准确理解指令所对应的任务需求。随后,模型会依据其训练过程中积累的挂衣服流程知识,规划出完成该任务所需的一系列操作步骤,并顺序执行这些步骤,最终圆满完成任务。
从技术层面深入剖析,GO-1大模型具备了广泛的场景感知与理解能力。在模型构建与训练阶段,它学习了互联网上海量的纯文本及图文数据,从而能够准确理解“挂衣服”在具体情境下的含义与要求;通过观摩人类操作视频及其他机器人的操作视频,它掌握了挂衣服任务的常规环节;通过模拟不同衣物、衣柜、房间环境下的挂衣服操作,它深刻理解了任务环节中涉及的物体与环境,并打通了任务执行的全流程;最后,得益于真机示教数据的学习,机器人能够熟练地完成挂衣服任务的所有操作。
GO-1具备四大革命性能力
具体来说,该款大模型的特点可以归纳为4个方面。
人类视频学习
GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解。
小样本快速泛化
该大模型具有泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。
一脑多形
该大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体。
持续进化
该大模型搭配一整套数据回流系统,可以从实际执行中遇到的问题数据中持续进化学习。
2
基于全新ViLLA架构
构建核心围绕对数据的充分利用展开
数据驱动:构建具身智能金字塔
GO-1大模型的构建核心围绕对数据的充分利用展开。基于具身领域的数字金字塔,GO-1吸纳了人类世界多种维度和类型的数据:
- 底层:互联网的大规模纯文本与图文数据,帮助机器人理解通用知识和场景
- 第2层:大规模人类操作/跨本体视频,帮助机器人学习人类或其他本体的动作操作模式
- 第3层:仿真数据,用于增强泛化性,让机器人适应不同场景、物体等
- 顶层:高质量的真机示教数据,用于训练精准动作执行
有了这些数据,可以让机器人在一开始就拥有通用的场景感知和语言能力,通用的动作理解能力,以及精细的动作执行力。
当然,过程中也少不了一个合适的数据处理架构。
由于现有的VLA(Vision-Language-Action)架构没有利用到数字金字塔中大规模人类/跨本体操作视频数据,缺少了一个重要的数据来源,导致迭代的成本更高,进化的速度更慢。
因此,智元团队创新性地提出了ViLLA(Vision-Language-Latent-Action)架构。
智元团队创新性地提出了ViLLA架构
ViLLA架构由VLM(多模态大模型)和MoE(混合专家)组成,三者分工明确:
VLM(InternVL-2B)
接收多视角视觉、力觉信号和语言指令,通过海量互联网图文数据预训练,具备通用场景感知能力。例如,识别“水杯”时不仅能判断形状,还能结合上下文理解“倒水”意图。
Latent Planner(隐式规划器)
基于VLM中间层输出,预测离散化的隐式动作标记(Latent Action Tokens),形成任务规划链(CoP)。通过时空Transformer编码历史帧与当前帧的差异,并利用VQ-VAE量化处理,将人类视频中的动作抽象为通用模板。例如,将“挂衣服”动作分解为“举起衣架-定位挂钩”等隐式标记。
Action Expert(动作专家)
采用扩散模型生成高频精细动作序列,在百万级真机数据(如AgiBot World数据集)上训练,实现毫米级动作控制。例如,倒水时每秒生成220次动作调整,动态适应液面高度变化。
3
未来展望
具身智能迈向通用化、开放化、智能化
– 从单一任务到多种任务:机器人能够在不同场景中执行多种任务,无需针对每个新任务重新训练
– 从封闭环境到开放世界:机器人不再局限于实验室,而是可以适应多变的真实世界环境
– 从预设程序到指令泛化:机器人能够理解自然语言指令,并根据语义进行组合推理,不再局限于预设程序
写在最后
GO-1通过ViLLA架构与数据驱动策略,解决了具身智能长期面临的泛化难、适应性差、交互复杂等问题。随着2025年量产计划的推进(预计数千台机器人落地),其有望成为具身智能领域的“安卓级”基座模型,推动机器人技术在商业、工业、家庭等多领域实现规模化应用。