香港中文大学贾佳亚团队提出了 Mini-Gemini,这是一个简单有效的框架,可增强多模态视觉语言模型(VLM)。
尽管视觉语言模型在促进基本视觉对话和推理方面取得了进步,但与 GPT-4 和 Gemini 等模型相比,性能差距依然存在。该团队试图从高分辨率视觉 token、高质量数据和 VLM 引导生成三方面挖掘 VLM 的潜力,来提高模型性能和实现任意对任意的工作流程,从而缩小差距。
为了增强视觉 token,他们建议在不增加视觉 token 数量的情况下,利用额外的视觉编码器进行高分辨率细化。他们还进一步构建了一个高质量的数据集,来促进精确的图像理解和基于推理的生成,从而扩大当前 VLM 的操作范围。
总体而言,Mini-Gemini 进一步挖掘了 VLM 的潜力,并同时增强了当前框架在图像理解、推理和生成方面的能力。Mini-Gemini 支持从 2B 到 34B 的一系列稠密和 MoE 大型语言模型。事实证明,它在多个零样本基准测试中取得了领先的性能,甚至超过了已开发的私有模型。
论文链接:
https://arxiv.org/abs/2403.18814项目地址:
https://mini-gemini.github.io/