Meta开发10亿以下参数的LLM模型MobileLLM

此前很多开发人员都在使用Llama模型,本周Meta又发布了能在移动设备上运行,参数量不到10亿的新AI模型。

由于在云上运行成百乃至上千亿参数的大型语言模型(LLM)灰增加计算成本还有延迟性问题,这也增加了笔记本电脑或手机端上运行大模型需求。Meta旗下Meta Reality Labs、PyTorch与Meta AI Research(FAIR)部门联合研发了新训练方法,建立了1.25亿、3.5亿参数量的小模型MobileLLM。

Meta研究小组公布的论文说明了其优化小型LLM的创新方法。他们认为,对小模型而言,模型的深度比广度重要,因此采取“深而精简”(deep- and-thin)的模型架构,将分组查询(Grouped Query Attention,GQA)方法用于小型LLM,最大化权重利用率。此外,他们还发展了权重共享的新方法,能提升减少存储区块(block)计算次数,进一步降低AI模型运算延迟性。

研究人员将其训练出的MobileLLM 125M/350M和参数量相当的State of the Art(SOTA)模型如Cerebras、OPT、BLOOM等进行对话测试。在零样本(zero-shot)测试中MobileLLM 125M/350M比SOTA模型的平均准确率高出2.7%/4.3%。研究人员使用权重共享方法训练出的MobileLLM 125M/350M版本——MobileLLM LS-125M/350M,还可以将准确率分别再向上提升0.7%及0.8%。

MobileLLM 125M/350M在聊天和API呼叫任务中,效能大幅超越同参数量的小型LLM。其中,在API呼叫任务中,这个新模型得分还比Meta的LLaMA-v2 7B模型高。

研究人员另外还训练了其他参数规模的模型,包括MobileLLM-600M/1B/1.5B。目前Meta研究小组将MobileLLM的相关资源公开在GitHub及Hugging Face上。

此外,今年苹果也公布了OpenELM 270M/450M/1.1B/3B,谷歌开源了Gemma 2B/7B、Gemma 2-9B/27B。