谷歌更新两个用于程序开发与研究的Gemma模型产品

谷歌推出Gemma系列模型新产品CodeGemma和RecurrentGemma,强化代码生成以及研究实验运行效率,可兼容多种开发环境和硬件设备。

谷歌轻量级开放大模型Gemma增加两个新产品,其一是可用于代码完成和指令遵循生成式任务的CodeGemma,另一个则是针对研究实验效率最佳化架构的RecurrentGemma。

CodeGemma模型针对开发人员和企业的代码完成、生成和聊天工具使用环境开发,其提供了多类大模型为用户灵活应用,包括CodeGemma 7B预训练变体,可用作专门处理代码完成和生成任务,还有针对调整和校对指令的CodeGemma 7B变体,能用于代码聊天和指令遵循任务,另外CodeGemma 2B预训练变体则适用于本地快速代码完成。这些变体针对不同功能进行最佳化,以适应不同的使用场景和需求。

其中CodeGemma模型使用5000亿个,主要是英文的网页文件、数学和代码Token进行训练,谷歌提到,CodeGemma产生的代码不仅语法正确,而且语义也更具意义,有助于减少代码错误与纠错时间。同样具有多语言能力,特别是Python、JavaScript、Java等各种热门程序语言的代码编写建议。

RecurrentGemma则可支持研究人员进行大批量高效推理,采用循环神经网路和局部注意力机制提升记忆效率,虽然RecurrentGemma在基准测试上成绩与Gemma 2B模型相当,但RecurrentGemma使用的存储量更少,在存储资源相对有限的装置上,如单GPU或是CPU电脑,能够生成更长的样本。

两者都采用谷歌开发的开源数值计算函数库JAX建置,与JAX、PyTorch、Hugging Face Transformers、Gemma.cpp兼容,支持包括笔记本、PC、英伟达GPU和谷歌云端TPU等设备,进行本地实验和云端部署。此外,CodeGemma还兼容于Keras、NvidiaNeMo、TensorRT-LLM、Optimum-Nvidia、MediaPipe与Vertex AI等市面上各种机器学习工具与框架。