【深度观察】马斯克穿大花袄骑电动车逛游乐园?国产地表最强视频模型震惊歪果仁,Vidu1.5让视觉模型进入上下文时代

引言

【算力豹导读】全球首个支持多主体一致性的多模态模型,刚刚诞生!Vidu 1.5一上线,全网网友都震惊了:LLM独有的上下文学习优势,视觉模型居然也有了。

来自中国的视频生成模型,再一次震惊了全球大模型圈。生数科技推出的Vidu 1.5,成为世界首个支持多主体一致性的多模态模型!

国产地表最强视频模型震惊歪果仁

早在9号,Vidu就在官方账号上预热了此次发布,同步放出一段案例,案例中上传一张 黑人男子照片、铠甲图、城市街景,Vidu1.5便将这三者元素完美的融合到一个视频中,实现“男子穿着铠甲走在街道”上的画面。从效果看,Vidu 1.5赋予了视频模型前所未有的控制能力,通过图片输入来实现精准控制和编辑!

上线后,有海外用户评价,这直接把Runway、LumaAI等一众视频模型都一锅端了,其他视频模型都实现不了的能力,Vidu竟然给攻破了,甚至在语义理解甚至比图像模型王者Midjorney还强。

更有海外用户更是直呼“改变了游戏规则”,未来“只要上传一张角色图+一张环境图”就可以创作连续的视频故事。

地表最强!「多主体一致性」难题被攻克

技术迎来重大突破

当前在视频生成领域,一个亟待解决的挑战就是「一致性控制」问题。即在不同生成的视频之间,模型往往难以确保主体(如人物角色或物体)的外观、特征和风格保持一致。

特别是在处理包含多个角色或物体的场景时,现有模型还无法做到对多个主体同时进行控制,例如,主体间的特征容易产生混淆,主体间的互动也难以保持自然连贯。

不过,这一“世纪难题”如今被国产视频模型攻克了!

国产视频模型Vidu上新1.5版本,全新上线「多图参考」功能,通过上传一至三张参考图,实现对单主体100%的精确控制,同时实现多主体交互控制、主体与场景融合控制,能够无缝集成人物、道具和场景。

Vidu自最初上线以来,就一直致力于解决视频模型中「一致性」的核心难题:早在7月底全球上线的时候,Vidu 就推出「角色一致性」功能,用户可上传自定义的角色图,然后指定该角色在任意场景中做出任意动作;

在9月初,Vidu全球首发了「主体参照」功能,允许用户上传任意主体的一张图片,通过描述词任意切换场景。这次 Vidu 1.5 则是进一步深化了在「一致性」方面的领先布局和深厚优势。

对于单主体而言,通过上传特定主体的不同角度或不同景别下的图片,Vidu 1.5 能实现100%精准控制。

比如下面的复古美女,造型极具复杂度,但无论在何种景别、视角下,甚至是特写镜头中,角色的形象都能始终保持高度一致。通常视频模型在生成侧面、背面等刁钻视角的画面时,往往靠模型“自行脑补”,这过程中就容易出现各种不满足用户预期的画面,Vidu 1.5完全避免了这一问题,能够保证不同视角下主体信息的准确。

多主体一致性,三张图稳定输出

接下来,才是Vidu真正放大招的时候了。现在,任何人可以在「多图参考」功能中选择上传多个主体。它既可以是人物角色,也可以是人物+道具物体、环境背景等等,即便是「多主体」Vidu 1.5也能做到一致性控制。

主体+场景:任意地点想做什么就做什么

上传主体和场景图,就可以实现主体和场景的无缝融合。

例如,我们让马斯克穿上东北大花袄骑着电动车在游乐园逛。

无微调大一统架构

以前的视频模型如果想实现一致性生成能力,都不得不对每个场景设计相应的模型进行微调。它们并不能像语言模型一样,通过上下文学习,基于少量的示例或提示,快速适应新任务。

生数科技却探索出了一条完全与众不同的路。

秉承通用性的理念,Vidu有和LLM一致的设计哲学:

  • 统一问题形式:LLM将所有问题统一为(文本输入,文本输出),Vidu则将所有问题统一为(视觉输入,视觉输出);
  • 统一架构:LLM和Vidu均用单个网络统一建模变长的输入和输出;
  • 压缩即智能:LLM从文本数据的压缩中获取智能,Vidu从视频数据的压缩中获取智能。

设计哲学一致外,在架构复杂性、数据多样性、生成效率等方面,多模态大模型门槛更高,在此挑战下,Vidu在世界范围内率先推动多模态大模型产生智能涌现,如OpenAI引领LLM的进步和创新。

省去“炼丹”环节,一款“LoRA终结器”

上述突破性的工作源自于Vidu 1.5背后基础模型能力的全面提升,而非业界主流的LoRA微调方案,无需专门的数据采集、数据标注、微调训练环节,一键直出高一致性视频。

此前LoRA微调一直是业界解决一致性问题的主流方案。LoRA(Low-Rank Adaptation)方案,即在预训练模型的基础上,用特定主体的多段视频进行微调,让模型理解该主体的特征,从而能生成该主体在不同角度、光线和场景下的形象,保证其在若干次不同生成时的一致性。

比如创作一只卡通狗的形象,想生成连续一致的视频画面,但模型在预训练过程中并没有学习过该形象,所以需要拿卡通狗的多段视频,让模型进一步训练,直到认识这只卡通狗长什么样。

但通常LoRA需要20~100段的视频,数据构造繁琐,且需要一定的训练时间,通常需要数个小时甚至更久的时间,成本是单次视频生成的成百上千倍。

此外,LoRA微调模型容易产生过拟合,即在理解主体特征的同时,也会遗忘大量原先的知识。这导致对于动态的表情或肢体动作的变化,很难做到有效控制,容易产生僵硬或不自然的效果。在复杂动作或大幅度变换时,微调模型也无法很好地捕捉细节,导致主体特征不够精准。

因此,LoRA主要适用于大多数简单情形下的主体一致性需求,但对于高复杂的主体或问题场景,需要更多的微调数据和更复杂的模型微调策略。

而Vidu 1.5基于通用模型能力的提升,仅靠三张图就实现高可控的稳定输出,直接省去“炼丹”环节,堪称是“ LoRA终结器”。

结语

总的来说,Vidu1.5视觉模型是一个功能强大的视频生成工具,它不仅提高了视频生成的效率和质量,还推动了视觉智能的发展。随着技术的不断进步和应用的拓展,Vidu1.5有望在未来发挥更大的作用。(文/宋雨涵)