引言
【算力豹导读】颠覆现有Agent范式、让AI拥有“主动能动性!
清华&面壁等团队最新开源新一代主动Agent交互范式 ( ProActive Agent)。
上图为两种人类与智能体交互形式的比对。左侧的被动式Agent只能被动接受用户指令并生成回复,而右侧的主动式Agent可以通过观测环境主动推断与提出任务。
当前,哪怕是ChatGPT等最先进的AI Agent都是传统的被动式Agent (上图左侧所示),即需要用户通过明确的指令显示告诉Agent应该做什么,Agent才能继续执行接下来的任务。
新范式下的Agent不再是简单的指令执行者,而是升级成为了具有”眼力见”的智能助手(上图右侧所示)。
它具备”眼中有活、主动帮助”的主动能动性,能够主动观察环境、预判用户需求,像”肚子里的蛔虫”一样,在未被明确指示的情况下主动帮用户排忧解难。
主动Agent交互范式应用场景demo演示
场景 1:在一段情侣聊天的场景中,男生邀请女生一起要在周六去环球影城并于早上八点来接女生,当Agent获取用户授权之后随时保持在线的“候命状态”,当Agent通过上下文聊天内容实时识别到女生的需求,在没有用户明确下指令的情况下,Agent主动帮女生定了一个周日早上七点的闹钟用来提醒起床。
场景 2:当用户在电脑上接收到一份重要文件(学习课件、发票等)时,Agent主动帮用户把文件存到了本地,并自动识别出PDF文件第一页显示的标题然后帮用户把文件名进行了重命名。
该研究除了提出以上开创性的主动 Agent范式之外,还通过采集不同场景下的人类活动数据构建了一个环境模拟器,进而构建了数据集ProactiveBench,通过训练模型获得了与人类高度一致的奖励模型,并比对了不同模型在数据集下的性能。
主动Agent技术原理
下图展示了主动 Agent 技术原理的整体流程。为了让智能体能够主动提出任务,该研究设计了三个组件以模拟不同场景下的环境信息,用户行为和对智能体提出任务的反馈。
数据生成过程总览。该过程包含了初始环境与任务设置,事件生成,主动预测,用户判断和行动执行。
1、环境模拟器模拟了一个特定环境,并为智能体的交互提供了一个沙盒条件。模拟器通过使用基于Activity Watcher软件采集到的真实人类数据以提升生成事件的质量。环境模拟器的主要功能为事件生成与状态维护:通过使用GPT-4o 从人类注释员处收集的种子事件以生成一个需要交互的具体环境,同时生成所有相关实体以让智能体执行任务。对于每个场景,环境模拟器接收用户活动并生成详细的,逻辑通顺合理的事件,环境模拟器将会持续生成事件,更新实体状态,产生特定反馈,直到当前环境下没有更多事件以供生成。
2、主动智能体将会通过环境模拟器提供的信息预测用户意图,生成预测任务。每当智能体接受一个新事件后,它将首先更新自己的记忆,结合用户之前的反馈和历史交互信息,主动智能体将能够结合用户性格提出可能的任务。如果主动智能体没有检测到需要,其将保持静默,反之将会提出一个任务。一旦此任务被用户接受,那么主动智能体将在环境模拟器中执行该任务,并进而产生后续的系列事件。
3、用户智能体将模拟用户行为并对主动智能体的任务做出反馈。用户智能体为经过提示的GPT-4o,在获取预测之后,用户智能体将会决定是否接受任务。该研究通过从人类标注员处收集判断,并训练一个奖励模型以模拟这一过程。人类标注员在研究开发的标注平台上进行标注,对特定时间下,9个不同的大语言模型生成的多样化预测进行判断,并通过多数投票的方式决定某个回合用户是否具有需求,以及用户倾向于接受什么类型的任务。值得一提的是,人类标注员在测试集上达到了91.67%的一致性,充分说明了测试集的可靠性。
新一代主动Agent交互范式的核心特点
一、主动性
主动观察环境:主动Agent交互范式下的Agent能够主动观察并理解其所在的环境,这是其主动性的基础。通过环境模拟器,Agent可以模拟一个特定的环境,并实时接收和处理来自该环境的信息。
主动预测用户需求:在主动观察环境的基础上,Agent能够利用自身的智能算法和模型,预测用户可能的需求或意图。这种预测能力使得Agent能够在用户明确提出需求之前,就主动提供帮助或建议。
主动提出任务:当Agent预测到用户可能有需求时,它会主动提出一个或多个可能的任务供用户选择。这些任务通常是基于对用户历史行为、当前环境以及Agent自身能力的综合考量而提出的。
主动执行任务:一旦用户接受了Agent提出的任务,Agent就会立即执行该任务,并在执行过程中持续监控环境变化和用户需求的变化,以确保任务的顺利完成。
二、智能性
高级强化学习算法:主动Agent交互范式可能采用了更为高级的强化学习算法,使得Agent在面对复杂、动态的环境时,能够基于自身的某种内在“动机”做出合理的决策。这种算法不仅提高了Agent的决策能力,还增强了其适应性和鲁棒性。
灵活的知识表示与推理:与传统AI相比,主动Agent交互范式下的Agent能够以更加灵活、动态的方式表示知识,并根据自身的主观能动性进行推理。这种能力使得Agent能够处理更复杂、需要主观判断的任务,如医疗诊断辅助、内容推荐等。
个性化服务:通过持续的环境观察学习和用户反馈,主动Agent能够适应用户的生活方式,并提供个性化的服务。例如,在情侣聊天的场景中,Agent可以识别到女生的需求,并主动设置闹钟;在管理文件时,Agent能够自动存储、识别和优化文件名称等。
高效的感知与决策模块:主动Agent交互范式下的Agent通常具有高效的感知模块和决策模块。感知模块能够主动筛选和聚焦于对目标有重要意义的数据,提高处理效率;而决策模块则能够基于感知到的信息,快速做出合理的决策。
决策机制
主动Agent的决策机制是其技术的核心部分。Agent能够基于感知到的信息,通过构建环境模型、设定目标函数以及采用各种决策算法(如基于规则的推理、基于模型的决策、基于目标的决策以及基于学习的决策等),来做出最优的决策。其中,深度强化学习(DRL)为Agent提供了新的决策解决方案,它能够在复杂的环境中自动学习最优的决策策略,无需预先设计决策模型。
- 基于规则的推理:依赖于预先设计的知识库和算法进行决策。
- 基于模型的决策:构建环境模型,根据模型预测做出最优决策。
- 基于目标的决策:根据Agent的目标函数,做出最有利于实现目标的决策。
- 基于学习的决策:通过机器学习方法,不断优化决策策略。
此外,Agent还可以使用马尔可夫决策过程(MDP)来描述其决策过程,并通过求解值函数和策略函数来实现最优决策。
结语
清华大学与面壁智能联合提出的新一代主动Agent交互范式是人工智能领域的重要创新之一。通过引入主观能动性、支持多模态感知与交互以及鼓励持续学习与进化等核心特点,该范式有望推动AI技术向更高层次发展,并为未来的AI应用开辟更广阔的空间。(文/宋雨涵)