谷歌发布Gemini 1.5，AI讲解电视不是梦了？-DOIT-数据产业媒体与服务平台

2月16日，简直杀疯了，OpenAI发布首个视频生成模型Sora。同一天，谷歌也发布最新的Gemini 1.5模型，最多支持100万个Token（文本单位），意味着它能一次处理大量信息，如1小时的视频，11小时音频，超过3万行的代码，或是超过70万字的内容。最先采用Gemini 1.5模型的产品为Gemini 1.5 Pro，这是谷歌推出的中型多模态模型，其标准文本长度为12.8万个Token，不过谷歌允许少数的开发者与企业客户通过AI Studio及Vertex AI预览其100万个Token的能力。

Gemini是谷歌用来挑战OpenAI GPT的作品，不过，它是个多模态模型，可同时支持文字、图片及声音的输入。谷歌把Gemini分成3个版本，分别是在手机上运行的Gemini Nano、通用版的Gemini Pro，以及最强大的Gemini Ultra。目前Gemini Nano已被应用在Google Pixel 8及三星Galaxy S24系列手机上，并已开放开发者与企业测试Gemini Pro。

谷歌在去年3月发表的AI聊天机器人Bard最初使用的是LaMDA模型，之后改用PaLM模型，再于去年12月升级至Gemini Pro模型，因而在日前直接将谷歌Bard更名为Gemini，并推出基于Gemini Ultra 1.0的付费机器人服务，而这也是Gemini Ultra 1.0的首个商品化应用。

在Google正努力推动Gemini 1.0之际，还不忘发表最新的Gemini 1.5，也是为了早早PK OpenAI。

Gemini 1.5主要采用Transformer与MoE（Mixture-of-Experts，MoE）架构，前者是大型神经网路，后者则由众多小型的专家神经网络组成。

MoE模型可根据使用者所输入的类型，选择性地在其神经网络上启动最相关的专家路径，以大幅提高模型的效能。

支持100万个Token文本代表Gemini 1.5 Pro能够无缝分析、分类及整理大量内容，例如提供了阿波罗11号登月任务的402页纪录时，它能够理解、识别与判断文件中的对话、事件与细节；提供一部44分钟的Buster Keaton无声电影时，Gemini 1.5 Pro则可准确分析各种情节点与事件，并推论出电影中容易被遗漏的小细节；也能针对10万行的代码给出有用的解决方案、修改或解释。

谷歌发布Gemini 1.5，AI讲解电视不是梦了？

崔欢欢

相关推荐

近期文章

热门标签