贾佳亚团队推出Mini-Gemini：进一步挖掘VLM的潜力-DOIT-数据产业媒体与服务平台

香港中文大学贾佳亚团队提出了 Mini-Gemini，这是一个简单有效的框架，可增强多模态视觉语言模型（VLM）。

尽管视觉语言模型在促进基本视觉对话和推理方面取得了进步，但与 GPT-4 和 Gemini 等模型相比，性能差距依然存在。该团队试图从高分辨率视觉 token、高质量数据和 VLM 引导生成三方面挖掘 VLM 的潜力，来提高模型性能和实现任意对任意的工作流程，从而缩小差距。

为了增强视觉 token，他们建议在不增加视觉 token 数量的情况下，利用额外的视觉编码器进行高分辨率细化。他们还进一步构建了一个高质量的数据集，来促进精确的图像理解和基于推理的生成，从而扩大当前 VLM 的操作范围。

总体而言，Mini-Gemini 进一步挖掘了 VLM 的潜力，并同时增强了当前框架在图像理解、推理和生成方面的能力。Mini-Gemini 支持从 2B 到 34B 的一系列稠密和 MoE 大型语言模型。事实证明，它在多个零样本基准测试中取得了领先的性能，甚至超过了已开发的私有模型。

论文链接：
https://arxiv.org/abs/2403.18814项目地址：
https://mini-gemini.github.io/

贾佳亚团队推出Mini-Gemini：进一步挖掘VLM的潜力

nina

相关推荐

近期文章

热门标签