DeepMind 为提高机器人的物体堆叠能力提出新基准

10 月 13 日消息,人工智能研究实验室 DeepMind 近日为提高机器人的物体堆叠能力提出新基准。

Deep Mind 的研究小组通过 RGB 堆叠技术(RGB-Stacking)对机器人进行强化学习训练,评估多个研究对象的行为和动作来提高机器人能力。该项技术利用放置在篮子内红色、蓝色、绿色三种颜色的不同物体,对机器人手臂进行训练,因此被称作 RGB 堆叠。

一、推出机器人堆叠新基准,开源成果

对大多数人来说,将一个物体堆叠在另一个物体上是一项简单的任务,但即使是最精密的机器人也很难一次处理多项堆叠任务。堆叠动作需要一系列不同的运动、感知和分析技能,包括与不同类型物体交互的能力,将这个简单的人工任务提升为机器人技术,是一个面临巨大挑战并极其复杂的任务。

DeepMind 关于机器人学习的研究小组认为,推进机器人堆叠的最新技术将需要一个新的基准。机器人学习会议 (the Conference on Robot Learning ,CoRL 2021)中发表的一篇论文中介绍了 RGB 堆叠,该项技术的任务是让机器人学习如何抓住不同的物体并在彼此之间保持平衡。

虽然其他论文中已经存在堆叠任务的相关基准,但研究人员认为其研究的独创性在于,研究对象选择的多样性以及验证其研究发现而进行的评估。该论文的研究结果表明,模拟数据和现实世界数据的组合可用于学习“多对象操作”,这为机器人学习解决泛化新对象的问题提供了强大的基础。

为了支持其他研究人员,该研究小组开源了一版模拟环境,并发布了他们用于构建真实机器人 RGB 堆叠环境的设计,以及用于 3D 打印的 RGB 对象模型信息,并且在未来将更广泛地开放其机器人研究过程中使用的一系列图书馆资源和工具。

二、两大测试三大阶段,挖掘机器人学习潜能

RGB 堆叠的目标是通过强化学习训练机械臂堆叠不同形状的物体。强化学习是一种机器学习技术,它使机器人能够利用自己动作和经验的反馈,并通过反复试验来学习。

RGB 堆叠将一个抓手连接到篮子上方的机器人手臂上,篮子里放着红、绿、蓝不同颜色的三个物体。机器人必须在 20 秒内将红色物体堆叠在蓝色物体上方,而绿色物体则作为障碍物来分散其注意力。

DeepMind 的研究人员表示,这个学习过程可以确保机器人通过对多个对象集的训练获得通用技能。RGB 堆叠有意改变机器人抓取和堆叠的特性,这些特性定义了机器人如何抓取和堆叠每个对象,从而使机器人不断超越更简单的拾取和放置行为策略。

DeepMind 研究小组的 RGB 堆叠基准测试包括两个不同难度的测试。在“技能掌握”测试中,其目标是训练一个能够熟练堆叠一组预定义的五个三元组的智能体;在“技能泛化”测试中,研究人员使用相同的三元组进行评估,但在超过一百万个可能的三元组对象上训练代理研究对象,为了测试泛化,这些训练对象中排除了被选择在“技能掌握”中测试的三元组的对象组。其次,在这两级测试中,又将机器学习管道分解为三个阶段。

研究人员声称,使用 RGB 堆叠方法训练的机器人产生了“令人惊讶”的堆叠策略,并且出现对堆叠对象子集的“精通”现象。尽管如此,研究人员认为这只触及了机器人学习的表面内容,而针对泛化面临的挑战仍未得到解决。

三、发布新基准,助推制造业再次繁荣

“随着研究人员不断努力解决机器人技术推广落地的挑战,我们希望这个新的基准,连同我们发布的环境、设计和工具,有助于产生新的想法和方法,使操作更容易,机器人更有能力。”研究人员补充道。

随着机器人越来越擅长堆叠和抓取物体,一些专家认为,这种自动化技术可能会推动美国的制造业的新繁荣。在谷歌云和哈里斯民意调查最近的一项研究中,三分之二的制造商表示,日常运营中人工智能技术的使用频率正在增加,74% 的制造商认为他们能够应对目前瞬息万变的工作环境。

其次,制造业公司预计在未来五年的生产效率将会随着数字化转型的发展而逐渐提高。麦肯锡与世界经济论坛(McKinsey’s research with the World Economic Forum)的研究表明,到 2025 年,实施传统工业实践自动化“工业 4.0”的制造商,其生产价值的创造潜力将达到 3.7 万亿美元。

结语:DeepMind 新基准推动机器人行业进程

在机器人学习技术的研究过程中,获取数据较为困难,使得其发展面临困境。作为通用人工智能领域的领军企业,DeepMind 为解决机器人学习泛化问题提出新基准,并且主动开放研究过程的相关资源,共享研究成果,有望推动整个行业取得新进展。

但显而易见的是,机器人学习泛化问题仍需要长时间的探索,也是人工智能企业在未来发展面临的重大挑战。