DeepMind用大模型自动控制机器人

DeepMind公布了一系列机器人研究的最新进展,在Robotics Transformers(RT)基础上发展AutoRT、SARA-RT和RT-Trajectory系统,让机器人可以更快地做决策,理解世界,并在环境中顺利导航。

机器人接受“整理房子”、“烹调一顿美味健康的饭菜”等人类口语指令,就能完成工作,这需要对世界有高度的了解。依据机器人所需要具备的能力,DeepMind开发多项重要系统,首先是结合大模型的AutoRT。AutoRT将大型语言模型和视觉语言模型等大型基础模型,与机器人控制模型RT-1或RT-2结合,创建一个可以在新环境中部署机器人,并收集训练数据的系统。

也就是说,AutoRT通过运用大型基础模型所提供的语言和视觉处理能力,结合机器人控制技术,使机器人能够自动进入并适应未知环境,进一步收集对学习和功能改进有用的数据。

AutoRT能同时指挥多个机器人,每个机器人都搭载摄影机和终端效应器(End Effector),在一系列配置中执行不同的任务。对于每个机器人,系统会使用视觉语言模型来了解环境和视线中的物体,而大型语言模型则会建议机器人执行具创造性的任务,像是将零食放回台面,扮演决策者的角色,替机器人选择合适的任务来执行。

AutoRT系统经过7个月的实验,可同时控制不同大楼中的20多个机器人,共可控制超过52种独特机器人,已收集包括6,650个独特任务的77,000次机器人试验等多样化资料。虽然AutoRT是一个数据收集系统,但也是现实世界中自动机器人的展示,研究人员也为其设计安全护栏,参考作家Isaac Asimov在其机器人相关小说中设定的机器人三定律,最重要的第一条定律不得伤害人类,并进一步延伸限制机器人不得执行涉及人类、动物、尖锐物品和电器等相关任务。

虽然有这道规则,但研究人员仍担心无法保证机器人安全性,因此AutoRT还实施多道安全措施,像是协作机器人的关节受力在超过阈值时会自动停止,并且所有活动机器人都受人类监控,人类可以随时按下物理开关停止机器人。

此外,DeepMind研究人员也开发了一个新系统SARA-RT,可将Robotics Transformers模型转换成更高版本。研究人员将其应用在最新的机器人控制系统RT-2,在看过简短的视频历史纪录之后,SARA-RT-2模型的准确度比RT-2提升10.6%,速度更是快上14%。而这也是第一个可扩展的注意力机制,可以在不损失品质的情况下改进运算效率。

研究人员解释,传统Transformers架构主要的限制,在于其计算需求高,因此会减慢机器人的决策过程。SARA-RT透过一种称为向上训练(Up-training)的模型微调方法,使模型更有效率,将注意力模型的平方复杂度降为线性复杂度,大幅降低计算要求,不仅提高原始模型的速度,还保留其品质。

DeepMind第3种机器人创新技术是RT-Trajectory,RT-Trajectory为一种机器人训练模型,可以通过在视频训练中自动加入机器人动作的视觉轮廓,来提高机器人的任务理解和执行能力,RT-Trajectory将机器人手臂的夹持动作,转化成为二维轨迹草图,以RGB图像形式展示,替机器人提供实际的动作提示,进而改善其学习和控制策略。

在未曾出现于训练数据中的41项任务进行测试,RT-Trajectory控制的机器人手臂表现,较最先进的模型提高超过一倍,达到63%的任务成功率,相较之下,RT-2模型仅为29%。这个成果显示RT-Trajectory在提高机器人对新任务的适应性和效率上有极大的潜力,而且RT-Trajectory也可根据人类的示范或是手绘草图创建动作轨迹,并适用于多种机器人平台上。

DeepMind将会综合运用AutoRT、SARA-RT和RT-Trajectory新技术,创建更加能干有用的机器人。