DeepMind用大模型自动控制机器人-DOIT-数据产业媒体与服务平台

DeepMind公布了一系列机器人研究的最新进展，在Robotics Transformers（RT）基础上发展AutoRT、SARA-RT和RT-Trajectory系统，让机器人可以更快地做决策，理解世界，并在环境中顺利导航。

机器人接受“整理房子”、“烹调一顿美味健康的饭菜”等人类口语指令，就能完成工作，这需要对世界有高度的了解。依据机器人所需要具备的能力，DeepMind开发多项重要系统，首先是结合大模型的AutoRT。AutoRT将大型语言模型和视觉语言模型等大型基础模型，与机器人控制模型RT-1或RT-2结合，创建一个可以在新环境中部署机器人，并收集训练数据的系统。

也就是说，AutoRT通过运用大型基础模型所提供的语言和视觉处理能力，结合机器人控制技术，使机器人能够自动进入并适应未知环境，进一步收集对学习和功能改进有用的数据。

AutoRT能同时指挥多个机器人，每个机器人都搭载摄影机和终端效应器（End Effector），在一系列配置中执行不同的任务。对于每个机器人，系统会使用视觉语言模型来了解环境和视线中的物体，而大型语言模型则会建议机器人执行具创造性的任务，像是将零食放回台面，扮演决策者的角色，替机器人选择合适的任务来执行。

AutoRT系统经过7个月的实验，可同时控制不同大楼中的20多个机器人，共可控制超过52种独特机器人，已收集包括6,650个独特任务的77,000次机器人试验等多样化资料。虽然AutoRT是一个数据收集系统，但也是现实世界中自动机器人的展示，研究人员也为其设计安全护栏，参考作家Isaac Asimov在其机器人相关小说中设定的机器人三定律，最重要的第一条定律不得伤害人类，并进一步延伸限制机器人不得执行涉及人类、动物、尖锐物品和电器等相关任务。

虽然有这道规则，但研究人员仍担心无法保证机器人安全性，因此AutoRT还实施多道安全措施，像是协作机器人的关节受力在超过阈值时会自动停止，并且所有活动机器人都受人类监控，人类可以随时按下物理开关停止机器人。

此外，DeepMind研究人员也开发了一个新系统SARA-RT，可将Robotics Transformers模型转换成更高版本。研究人员将其应用在最新的机器人控制系统RT-2，在看过简短的视频历史纪录之后，SARA-RT-2模型的准确度比RT-2提升10.6％，速度更是快上14％。而这也是第一个可扩展的注意力机制，可以在不损失品质的情况下改进运算效率。

研究人员解释，传统Transformers架构主要的限制，在于其计算需求高，因此会减慢机器人的决策过程。SARA-RT透过一种称为向上训练（Up-training）的模型微调方法，使模型更有效率，将注意力模型的平方复杂度降为线性复杂度，大幅降低计算要求，不仅提高原始模型的速度，还保留其品质。

DeepMind第3种机器人创新技术是RT-Trajectory，RT-Trajectory为一种机器人训练模型，可以通过在视频训练中自动加入机器人动作的视觉轮廓，来提高机器人的任务理解和执行能力，RT-Trajectory将机器人手臂的夹持动作，转化成为二维轨迹草图，以RGB图像形式展示，替机器人提供实际的动作提示，进而改善其学习和控制策略。

在未曾出现于训练数据中的41项任务进行测试，RT-Trajectory控制的机器人手臂表现，较最先进的模型提高超过一倍，达到63％的任务成功率，相较之下，RT-2模型仅为29％。这个成果显示RT-Trajectory在提高机器人对新任务的适应性和效率上有极大的潜力，而且RT-Trajectory也可根据人类的示范或是手绘草图创建动作轨迹，并适用于多种机器人平台上。

DeepMind将会综合运用AutoRT、SARA-RT和RT-Trajectory新技术，创建更加能干有用的机器人。

DeepMind用大模型自动控制机器人

崔欢欢

相关推荐

近期文章

热门标签