近期,谷歌发表了专为agentic AI时代打造的多模态语言模型Gemini 2.0,并开放Gemini 2.0 Flash测试版,及三类智能体(agent)。
谷歌 CEO Sundar Pichai指出,去年年底及今年8月分别推出的Gemini 1.0和1.5,以Gemini模型发展出7种产品,包括多模态AI笔记应用NotebookLM,用户超过20亿。今年以来谷歌投入研发智能体模型(agentic model),最新的Gemini 2.0是为新智能体AI时代所打造的模型。
Gemini 2.0具备多模态输出,原生生成图片及输出音频的功能,并整合在谷歌搜索及地图里。
谷歌还公布了Gemini 2.0系列第一款模型,名为Gemini 2.0 Flash。它是以最受开发人员欢迎的1.5 Flash为基础开发,在理解、数学、推理、事实贴近、图像辨识、语音辨识及影像分析等多个标准测试中,大幅超越前一代Flash模型,甚至1.5 Pro模型。
Gemini 2.0 Flash目前还是测试版。所有开发人员都能测试多模态输入及文字输出,部分合作伙伴已经能试用语音生成及原生图片生成功能。伴随Gemini 2.0 Flash的公布,谷歌还发布了新的Multimodal Live API,后者具备即时音频、影像串流输入等工具。
谷歌预计2025年1月,会再推出更多参数量版本的Gemini 2.0模型。
此外,谷歌还公布了以Gemini 2.0为基础的三个智能体研究原型。一是以Gemini 2.0升级的Project Astra,能在混合及多种语言环境下转换语言,且能理解不同腔调和罕见字,可用于Google Search、Lens和Maps。
2个Gemini 2.0为基础的新智能体,分别为Project Mariner和Jules。Project Mariner是可在浏览器运行的新智能体,以Gemini 2.0为基础让它能理解像素、或是Web元素如文字、代码、图片及表格,还能透过一款Chrome扩展程序来执行任务,像是读取网页、生成摘要。Jules则是可整合到GitHub工作流程的程序智能体,能处理问题、建立规划或执行,旨在加速开发,但全可由开发人员控制和监控。