人工智能研究公司OpenAI最新成果即是用单个机器手掌解魔方,其采用与操作⟪Dota 2⟫OpenAI Five相同的增强学习代码,搭配一种称为自动域随机化(Automatic Domain Randomization,ADR)的新技术,以完全模拟的方式训练机器手掌,现在机器手掌能有60%的成功率解开魔方。
对人类来说,单手解魔方也不是一件简单的事,孩子需要花费数年的时间,才能掌握单手操作需要的灵巧性。在过去60年的机器人技术,人类需要为困难的任务设计定制化的机器人,因此开发使用通用机器人硬件的方法,一直是近几十年人类的目标,而OpenAI在这项最新的研究中,使用15年前的机器手掌,搭配最新的方法,在通用机器人硬件操作课题上前进了一步。
OpenAI利用了神经网络来解决魔方的问题,透过增强学习进行模拟,并且使用Kociemba演算法以挑选魔术方块解法的步骤,并且利用域随机化(Domain Randomization)将训练模拟转移到真实的机器手掌上。
而让机器手掌操作魔术方块最大的挑战,是在创建的模拟环境中,模拟出真实世界特徵,研究人员表示,像是魔术方块或是机器手掌这类複杂的物体,非常难模拟其摩擦、弹性或是动态性,仅是靠现有的域随机化技术是远远不够的,因此为了克服这个问题,他们开发了自动域随机化技术,这个技术可以在模拟训练中产生越来越困难的环境。
自动域随机化训练会从单一且非随机的环境开始,让神经网络先学会解决魔术方块,随著神经网络的表现越来越好,在达到一定的效能阈值时,域随机化的数量便会自动增加,让神经网络应付更随机的环境,使得需要解决的任务更加困难,当神经网络不断学习后,再次超过效能阈值时,便会再加入更多的随机化,然后重複该过程。
自动域随机化的参数有很多种,一开始从固定魔术方块的大小开始,之后随著训练逐渐增加随机范围,变动魔术方块的尺寸和重量,也会随机化机器手指的摩擦力和手的视觉表面材质,神经网络需要在越来越困难的情况下,解决魔术方块。
研究人员提到,过去域随机化需要手动指定随机范围,但这并不容易,太多随机化使得学习太困难,太少又会阻碍模拟转移到真正机器人上的效果,而自动域随机化能够自动扩展随机范围,不需要人工干预,也不需要研究人员对域知识的理解,降低了该方法使用到不同领域的难度,而且由于自动域随机化让训练任务始终具有挑战性,训练成效不会收敛。
自动域随机化让神经网络在无数种随机情况中进行模拟,进而增加了强健性,当神经网络从模拟转移到真实机器人上的时候,就能够快速辨识并适应真实世界的环境条件。研究人员利用了各种扰动,以测试机器手掌解决魔术方块的强健性,包括把机器手掌的两只手指绑起来、戴上橡胶手套、阻碍视觉或是以长颈鹿玩偶随意干扰等。
在施予扰动的初期,机器手掌解决魔术方块的时间都会上升,研究人员解释,这是因为之前学习的策略无法发挥作用,当经神经网络过一段时间学习之后,完成的时间便会下降到之前的水准。
目前OpenAI的成果,在需要15次翻转才能完成魔术方块的条件,机器手掌有60%的成功率解决魔术方块,但是在需要26次翻转的复杂条件,现在机器手掌就只有20%的成功率。研究人员提到,他们的神经网络在前几次的翻转,魔术方块掉落的机率特别大,这是因为神经网络需要透过初期的翻转适应物理世界。