谷歌发布Gemini 1.5,AI讲解电视不是梦了?

2月16日,简直杀疯了,OpenAI发布首个视频生成模型Sora。同一天,谷歌也发布最新的Gemini 1.5模型,最多支持100万个Token(文本单位),意味着它能一次处理大量信息,如1小时的视频,11小时音频,超过3万行的代码,或是超过70万字的内容。最先采用Gemini 1.5模型的产品为Gemini 1.5 Pro,这是谷歌推出的中型多模态模型,其标准文本长度为12.8万个Token,不过谷歌允许少数的开发者与企业客户通过AI Studio及Vertex AI预览其100万个Token的能力。

Gemini是谷歌用来挑战OpenAI GPT的作品,不过,它是个多模态模型,可同时支持文字、图片及声音的输入。谷歌把Gemini分成3个版本,分别是在手机上运行的Gemini Nano、通用版的Gemini Pro,以及最强大的Gemini Ultra。目前Gemini Nano已被应用在Google Pixel 8及三星Galaxy S24系列手机上,并已开放开发者与企业测试Gemini Pro。

谷歌在去年3月发表的AI聊天机器人Bard最初使用的是LaMDA模型,之后改用PaLM模型,再于去年12月升级至Gemini Pro模型,因而在日前直接将谷歌Bard更名为Gemini,并推出基于Gemini Ultra 1.0的付费机器人服务,而这也是Gemini Ultra 1.0的首个商品化应用。

在Google正努力推动Gemini 1.0之际,还不忘发表最新的Gemini 1.5,也是为了早早PK OpenAI。

Gemini 1.5主要采用Transformer与MoE(Mixture-of-Experts,MoE)架构,前者是大型神经网路,后者则由众多小型的专家神经网络组成。

MoE模型可根据使用者所输入的类型,选择性地在其神经网络上启动最相关的专家路径,以大幅提高模型的效能。

支持100万个Token文本代表Gemini 1.5 Pro能够无缝分析、分类及整理大量内容,例如提供了阿波罗11号登月任务的402页纪录时,它能够理解、识别与判断文件中的对话、事件与细节;提供一部44分钟的Buster Keaton无声电影时,Gemini 1.5 Pro则可准确分析各种情节点与事件,并推论出电影中容易被遗漏的小细节;也能针对10万行的代码给出有用的解决方案、修改或解释。