不搞噱头,直接发布!谷歌突袭发布新一代大模型Gemini 2.0,打的就是精锐!“为新智能体时代构建的下一代模型”

引言

【算力豹导读】今日,谷歌震撼性地推出了其迄今为止最为强大的AI大模型——Gemini 2.0。这款新模型不仅新增了原生图像生成与音频输出的多模态功能,还实现了对谷歌搜索、地图、Lens等核心工具的原生无缝调用。

尤为令人瞩目的是,谷歌同步推出了Gemini 2.0 Flash的实验版本,其惊人的运行速度是1.5 Pro的两倍,成为其首秀之作。

谷歌郑重声明,Gemini 2.0是专为AI Agent时代精心打造的,其核心精髓在于多模态与AI Agent的深度融合。依托Gemini 2.0 Flash的强大能力,谷歌推出了一系列创新AI Agent产品,包括在今年5月就已在业界引起轰动的通用AI助手原型Project Astra,能够在谷歌浏览器中灵活执行多步骤复杂任务的实验性扩展Project Mariner,以及充满潜力的实验性AI编程Agent Jules和游戏Agent。

Gemini 2.0的发布,无疑标志着谷歌在迈向AI Agent新时代的征途上迈出了至关重要的一步。

对于Gemini和Gemini Advanced的忠实用户而言,他们现在可以在桌面端的模型下拉菜单中轻松选择聊天优化版的Gemini 2.0进行率先体验。同时,开发人员也可以通过Google AI Studio和Vertex AI在Gemini API中迅速上手,充分利用此模型进行构建。本周,谷歌已在搜索的AI概览中率先开启了Gemini 2.0的测试之旅。

此外,谷歌还透露了一个令人振奋的消息:Gemini 2.0 Flash将于1月份全面上市,并推出更多样化的模型尺寸以满足用户的多元化需求。而到了明年年初,谷歌更是计划将Gemini 2.0广泛应用于更多谷歌产品中,为用户带来更加智能、便捷、高效的全新体验。

满足智能体基本需求的底层模型

如果说Gemini 1.0是关于整理和理解信息,那么Gemini 2.0就是要让这些信息真正变得有用。过去一年,我们一直在投资开发更具主动性的模型,”皮查伊对此解释说,“这意味着它们可以更好地理解周围的世界,提前思考多个步骤,并在你的监督下采取行动。——谷歌CEO桑达尔·皮查伊

这意味着,AI不再只是被动地回答问题,而是能够理解用户的需求,提前思考,并在用户监督下采取行动。

想象一个既能帮你规划旅行,又能实际帮你订票的助手,这就是谷歌对未来AI的愿景。

Gemini 2.0 Flash的能力

谷歌的官方博客显示,Gemini 2.0 Flash在关键基准测试中的速度是1.5 Pro的两倍。

除了支持图像、视频和音频等多模式输入外,Gemini 2.0 Flash现在还支持多模态输出,例如与文本混合的原生生成的图像和可操纵的文本转语音(TTS)多语言音频,还可以原生调用谷歌搜索、代码执行以及第三方用户定义函数等工具。

为了帮助开发人员构建动态和交互式应用程序,在此基础上,谷歌还发布了具有实时音频、视频流输入以及使用多个组合工具的能力的Multimodal Live API。

在AI Agent方面,谷歌宣布了对实验性功能的更新,包括通用AI Agent Project Astra、多步骤任务AI Agent Project Mariner、AI编程Agent Jules、游戏Agent。

01

通用AI Agent Project Astra:记住10分钟视频,更强agent能力

由Gemini 2.0强力助阵的Project Astra最新版本,成功解锁了Agent(代理)功能。此次迭代带来了诸多显著改进:

  • 记忆力大幅提升:回想起今年5月,谷歌所展示的早期版本仅能记住短短45秒的视频内容。而今,它已跃升至能记忆长达10分钟的视频,轻松捕捉并铭记用户与其之间的每一次交流细节及个人偏好,让个性化体验再上新台阶。
  • 对话能力全面升级:它不仅精通多种语言及混合语言交流,更在理解口音和罕见词汇方面展现出卓越能力,让沟通无界限。
  • 工具应用更加灵活:依托Gemini 2.0内置的Agent框架,它能通过文本、语音、图像及视频等多种方式回答问题、执行任务,并在必要时无缝调用谷歌搜索、Lens、地图等强大应用,实现功能最大化。
  • 延迟问题得到有效改善:得益于全新的流媒体技术和本机音频理解能力,Agent能够以接近人类对话的即时性理解语言,让每一次交流都流畅自然,宛如面对面交谈。

谷歌正在扩大Project Astra的测试范畴,将新的反馈纳入更新中,包括优化其对各种口音及不常见单词的理解、减少延迟、将其集成到一些谷歌产品(如搜索、Lens、地图等)。

02

多步骤任务AI Agent Project Mariner:最佳工作结果83.5%,为保证安全目前需人类介入

Project Mariner是谷歌在Gemini 2.0模型基础上发布的一个实验性功能,其可以完成多步骤的复杂任务。

作为研究原型,Project Mariner‌能够理解和推理浏览器屏幕上的信息,包括像素和文本、编程、图像和表单等网络元素,然后通过实验性的谷歌扩展程序使用这些信息完成任务。

谷歌官方博客显示,根据WebVoyager基准进行评估,该基准测试Agent在端到端真实世界网络任务上的性能,Project Mariner作为单一Agent设置实现了83.5%的最佳工作结果。‌

在演示中,Project Mariner可以同时完成获取表单、找到公司官网、联系方式等多步骤任务,Agent会自动执行在谷歌搜索中查找电子邮件的过程,且这一过程中用户可以随时点击暂停和停止。同时,用户可以看到Agent每一步行动的推理步骤和计划。

尽管目前‌Project Mariner执行任务时较慢且并不总是准确,但从技术上讲,这表明了在浏览器中导航已经成为可能。

目前,该代理在完成任务时需要人类介入,如Project Mariner只能在浏览器的活动选项卡中键入、滚动或点击,并且它会在用户执行某些购买等敏感操作之前要求用户进行最终确认。

03

AI编程Agent Jules:直接集成GitHub长期目标是构建通用Agent

谷歌还在探索Agent Jules的更新。Jules是一种直接集成到GitHub工作流程中的实验性AI驱动的编程Agent。

Jules可以解决问题、制定计划并执行它,所有过程都在开发人员的指导和监督下进行。在这一领域,谷歌的长期目标是构建在所有领域(包括编程)都有帮助的AI Agent。

04

游戏Agent:视频游戏导航,根据游戏动作推理实时对话充当游戏交流

谷歌借助Gemini 2.0的强大功能,精心打造了一款游戏Agent,这款智能助手能够引领用户在视频游戏的虚拟国度中自如穿梭。仅凭屏幕上的动态变化,Agent便能洞悉游戏机制,并在实时互动中为用户提供精准的下一步行动指南。

展望未来,谷歌正积极探索将Gemini 2.0的空间推理技术融入机器人领域,旨在创造出能在现实世界中提供切实帮助的Agent,开启智能生活的新篇章。

Project Astra 升级版:生活更生活

谷歌发布Project Astra新演示视频,基于Gemini 2.0。测试者在伦敦用Pixel手机测试:通过AI助手获取公寓门密码、洗衣指导,搜索推荐地点信息。街上扫描食物、雕塑等,AI助手即时解答。分享朋友读书信息,AI推荐礼物并讨论兴趣点。询问公交车路线及路标,AI提供详细解答。测试者还试用原型眼镜查天气、公园信息、骑行规定及超市位置。

但AI助手存在局限,如无法访问个人邮件、照片,嘈杂环境声音识别难,无法设置计时器等。

Project Astra产品经理Bibo Xu表示,该AI正融合最强大的信息检索系统。

Gemini 2.0背后的硬件功臣:

谷歌今年推出了全新Gemini 2.0,该系统经由其第六代TPU——Trillium训练而成。

Trillium TPU不仅代表了谷歌TPU技术的最新成就,而且在性能上实现了显著提升。与前一代相比,Trillium TPU的训练性能提升了4倍以上,推理吞吐量高达3倍,能效提高了67%,峰值计算性能更是跃升了4.7倍。此外,其HBM容量也实现了翻倍。

如今,谷歌云客户已能普遍使用Trillium TPU,它作为谷歌云AI超级计算机的核心组件,集成了高性能硬件、开放软件、前沿的机器学习框架以及灵活的消费级模型。谷歌对开放软件层进行了全面升级,优化了XLA编译器和主流框架,从而在AI训练、调优及服务方面提供了卓越的性价比。

值得一提的是,Trillium TPU还采用了主机DRAM卸载等先进技术,进一步提升了工作效率。在架构层面,每个Jupiter网络由超过100,000颗Trillium芯片组成,具备13Pbps的对分带宽,能够轻松应对数十万个加速器的分布式训练任务。这一创新设计使得Trillium TPU在性能和规模上均达到了前所未有的高度。

写在最后

年末时分,通用人工智能(AGI)领域的竞争愈发白热化,亚马逊、OpenAI、Meta及谷歌等科技巨头竞相发布重量级产品,将大模型市场的竞争推向了一个全新的高度。在这些企业中,谷歌凭借其在大模型技术、云端基础设施以及端侧智能领域的全面而深入的布局,显得格外耀眼。

作为安卓操作系统的领航者,谷歌对端侧智能的理解尤为深刻且独到。今日,谷歌通过一系列新品发布,进一步彰显了Agent(代理)在智能手机、智能眼镜等端侧设备上的巨大潜力和广阔前景。在更加强大、更加智能的模型支持下,Agent将能够更广泛、更深入地为用户服务,助力用户更全面、更精准地了解周围环境,提前进行多步骤、多维度的规划,并在用户的指导下执行相应操作,实现更加便捷、高效的智能生活。

然而,AI系统的不可控性依然是一个不容忽视的问题。在推动世界迈向Agent时代的过程中,包括谷歌在内的大模型公司必须始终保持警惕,确保系统低风险运行,牢牢把握安全的方向盘,为用户带来更加安心、可靠的智能体验。(文/宋雨涵)