谷歌发布Gemini 2.0，还有三个智能体-DOIT-数据产业媒体与服务平台

近期，谷歌发表了专为agentic AI时代打造的多模态语言模型Gemini 2.0，并开放Gemini 2.0 Flash测试版，及三类智能体（agent）。

谷歌 CEO Sundar Pichai指出，去年年底及今年8月分别推出的Gemini 1.0和1.5，以Gemini模型发展出7种产品，包括多模态AI笔记应用NotebookLM，用户超过20亿。今年以来谷歌投入研发智能体模型（agentic model），最新的Gemini 2.0是为新智能体AI时代所打造的模型。

Gemini 2.0具备多模态输出，原生生成图片及输出音频的功能，并整合在谷歌搜索及地图里。

谷歌还公布了Gemini 2.0系列第一款模型，名为Gemini 2.0 Flash。它是以最受开发人员欢迎的1.5 Flash为基础开发，在理解、数学、推理、事实贴近、图像辨识、语音辨识及影像分析等多个标准测试中，大幅超越前一代Flash模型，甚至1.5 Pro模型。

Gemini 2.0 Flash目前还是测试版。所有开发人员都能测试多模态输入及文字输出，部分合作伙伴已经能试用语音生成及原生图片生成功能。伴随Gemini 2.0 Flash的公布，谷歌还发布了新的Multimodal Live API，后者具备即时音频、影像串流输入等工具。

谷歌预计2025年1月，会再推出更多参数量版本的Gemini 2.0模型。

此外，谷歌还公布了以Gemini 2.0为基础的三个智能体研究原型。一是以Gemini 2.0升级的Project Astra，能在混合及多种语言环境下转换语言，且能理解不同腔调和罕见字，可用于Google Search、Lens和Maps。

2个Gemini 2.0为基础的新智能体，分别为Project Mariner和Jules。Project Mariner是可在浏览器运行的新智能体，以Gemini 2.0为基础让它能理解像素、或是Web元素如文字、代码、图片及表格，还能透过一款Chrome扩展程序来执行任务，像是读取网页、生成摘要。Jules则是可整合到GitHub工作流程的程序智能体，能处理问题、建立规划或执行，旨在加速开发，但全可由开发人员控制和监控。

谷歌发布Gemini 2.0，还有三个智能体

崔欢欢

相关推荐

近期文章

热门标签