“绝悟AI”亮相世界人工智能大会 探索多智能体应用前景

7月8日,腾讯“王者绝悟”亮相2021世界人工智能大会,该产品由腾讯AI Lab与王者荣耀联合推出,展现了AI在人类生活场景的想象力。“王者绝悟”与职业电竞选手展开了一场精彩的表演赛,展示了腾讯在多智能体博弈等前沿AI课题上的先进研究水准。

腾讯公司董事会主席、首席执行官马化腾在大会上表示,“这次我们带来王者荣耀的AI电竞赛,希望让大家欣赏到最高水平的AI竞技,同时激发青年人对‘通用AI’的研究兴趣。”

表演赛上,重庆QGhappy.Hurt、成都AG超玩会.无痕、武汉eStarPro. 诺言、深圳DYG.小义,以及辰鬼等5名职业选手,与“王者绝悟”进行BO5对战。

“王者绝悟”掌握全英雄池,全召唤师技能,无任何限制与数值加成。“王者绝悟”和职业玩家在视野和操作反应上是公平的,后台统计结果显示,王者绝悟APM(Action per Minute,每分钟操作次数)低于职业选手均值。

表演赛区域同时开放体验展区,向观众普及了AI技术在多元场景中的广泛应用价值。不少观众体验后表示:“虽然曾经在游戏里和王者绝悟有过切磋,但是经过现场不少行业人士的分析和解说后,还是重新认识到王者绝悟,并且理解到其并不只是一个简单的游戏对手”。

绝悟AI技术进化:自学习能力的演进

此次亮相的“王者绝悟”是掌握游戏中全部100多个英雄玩法的“完全体”版本。要精通王者荣耀这款MOBA(多人在线战术竞技)游戏,“王者绝悟”背后是天文数字级的计算量。

一方面,100多个英雄组成5人队伍,就有多达10的15次方种可能性;另一方面,AI要操作不同技能、装备的不同英雄,在对局中面临策略规划、目标选择、技能应用、路径探索及团队协作等大量即时的选择,其操作可能性预计高达10的20000次方。

在王者荣耀对局中,AI的动作状态空间远远大于围棋及其他简单游戏,甚至超过整个宇宙的原子总数(10的80次方)。如此庞大的运算空间里,要做高效准确的决策,对算法的挑战巨大。

绝悟AI背后的技术,主要涉及监督学习和强化学习两大领域。监督学习通过海量有标记的训练数据为基础,推导出行为预测函数。这个方法的优点在于能够模拟不同级别的目标行为,做到很好的拟人化;缺点在于过度依赖于数据,特别是标注数据的质量。强化学习通过构建奖励和惩罚刺激环境的角度出发,优化AI行为逻辑。这个方法的优点在不依赖已有数据并且能够探索出新的策略,甚至于超越当前人类的认知。

“王者绝悟”的能力演进经过了多次迭代:

2018年12月,“王者绝悟”对阵玩家高手队的5v5测试。这一版本通过监督学习方法,模拟学习了职业选手的操作,达到顶尖业余水平。

2019年,随着在深度强化学习、多智能体决策课题上研究不断深入,“王者绝悟”不再需要模仿人类数据,而是通过自己和自己对战,进一步提升微操水平和大局观,达到了王者荣耀职业电竞水平。

2020年,“王者绝悟”通过课程学习方式,学会了更多英雄玩法;5月,它用40个英雄池首次接受玩家们的挑战。

在本次亮相的完全体版本中,王者绝悟进一步引入了多轮组合博弈和层次化的强化学习算法。也就是在竞技比赛的局前和局内,都做了针对性优化,提升它的整体能力和战术对抗水平。

在局前BP环节(Ban and Pick,禁止对方使用的英雄和选择本方使用的英雄),王者绝悟既会考虑当前对局双方阵容的胜率,也会更长远地为后续对局“留招”,最大化多轮比赛的胜率。

在局内,通过自我博弈学习同时提升宏观战术策略和具体微操水平。在保持高强度微操能力的情况下,对不同的敌方战术策略,如五人抱团、四一分推、野区入侵等战术,做出更加合理的应对。

“王者绝悟”的演进,代表着腾讯在复杂策略与多智能体博弈课题研究上的先进技术水平;同时,也推动着行业在攻克“通用人工智能难题”上,又向前迈进了一步。

面向未来:AI赢了比赛,人类赢得未来

21世纪初,以 Deepmind、OpenAI 等为代表的一系列人工智能公司将由大数据和深度学习方法引领的又一轮人工智能浪潮推向巅峰。游戏也给计算机技术的前沿研究提供了大量的实验场景和驱动力,出现了一个良性循环的状态。

事实上,AI的目的并不是要在游戏里战胜人类,而是通过越来越复杂的游戏训练,最终解决现实生活中的问题。

自2018年初次亮相电竞赛场以来,绝悟AI在对局中飞速成长,王者荣耀游戏机制高复杂度、高挑战性、强协作性等特征,满足了对高水平AI的研究需要,并且得到了国际认可,绝悟AI相关论文已先后被AAAI、NeurIPS等AI顶级会议收录。

腾讯 AI Lab还同步推进了多类“AI+游戏”研究。棋牌类AI“绝艺”,四夺围棋AI世界冠军、担任中国国家围棋队专用AI,并进一步探索棋力极限,让职业棋手2子取得200连胜。绝艺从围棋的完全信息博弈到不完全信息博弈的棋牌类研究亦取得阶段性进展,获 IJCAI 2020麻将AI比赛冠军。

策略协作型AI绝悟也正从王者峡谷走向更多类型游戏。在足球游戏中,绝悟Wekick版本获谷歌Kaggle 11v11足球AI竞赛世界冠军。在RTS游戏中,在星际争霸2里打败“开挂”内置 AI 的智能体;在FPS射击类游戏中,着力解决3D环境建模、感知实现视角的转换和移动寻人等难题,先是夺得了VizDoom AI竞赛历史上首个中国区冠军,后在FPS AI上线手游《穿越火线-枪战王者(CFM)》中广获好评。

未来,腾讯AI研究还将有更多场景和应用。对于不少研究人员和开发者来说,多智能体技术研究依然存在显著的现实困难,包括环境的不确定性、信息获取的局限性、个体目标与全局目标的一致性,以及对高算力的要求。

基于此,2019年8月,王者荣耀、腾讯 AI Lab、高校携手共建“开悟”AI开放平台,打造利用王者荣耀与腾讯AI Lab核心技术构建的,对使用者低成本的多智能体人工智能算法研究、教学和验证的科研教学平台,助力打通产学研联盟通路。

长远来看,AI+游戏研究将是腾讯攻克 AI 终极研究难题——通用人工智能(AGI)的关键一步。AGI 代表研发能在通用系统中执行多种复杂命令,达到或超越人类水平的 AI ,从绝艺到绝悟,不断让 AI 从0到1去学习进化,并发展出一套合理的行为模式,这中间的经验、方法与结论,长期来看,有望在大范围内,如医疗、制造、无人驾驶、农业到智慧城市管理等领域带来更深远影响。