【深度观察】马斯克穿大花袄骑电动车逛游乐园？国产地表最强视频模型震惊歪果仁，Vidu1.5让视觉模型进入上下文时代-DOIT-数据产业媒体与服务平台

引言

【算力豹导读】全球首个支持多主体一致性的多模态模型，刚刚诞生！Vidu 1.5一上线，全网网友都震惊了：LLM独有的上下文学习优势，视觉模型居然也有了。

来自中国的视频生成模型，再一次震惊了全球大模型圈。生数科技推出的Vidu 1.5，成为世界首个支持多主体一致性的多模态模型！

国产地表最强视频模型震惊歪果仁

早在9号，Vidu就在官方账号上预热了此次发布，同步放出一段案例，案例中上传一张黑人男子照片、铠甲图、城市街景，Vidu1.5便将这三者元素完美的融合到一个视频中，实现“男子穿着铠甲走在街道”上的画面。从效果看，Vidu 1.5赋予了视频模型前所未有的控制能力，通过图片输入来实现精准控制和编辑！

上线后，有海外用户评价，这直接把Runway、LumaAI等一众视频模型都一锅端了，其他视频模型都实现不了的能力，Vidu竟然给攻破了，甚至在语义理解甚至比图像模型王者Midjorney还强。

更有海外用户更是直呼“改变了游戏规则”，未来“只要上传一张角色图+一张环境图”就可以创作连续的视频故事。

地表最强！「多主体一致性」难题被攻克

技术迎来重大突破

当前在视频生成领域，一个亟待解决的挑战就是「一致性控制」问题。即在不同生成的视频之间，模型往往难以确保主体（如人物角色或物体）的外观、特征和风格保持一致。

特别是在处理包含多个角色或物体的场景时，现有模型还无法做到对多个主体同时进行控制，例如，主体间的特征容易产生混淆，主体间的互动也难以保持自然连贯。

不过，这一“世纪难题”如今被国产视频模型攻克了！

国产视频模型Vidu上新1.5版本，全新上线「多图参考」功能，通过上传一至三张参考图，实现对单主体100%的精确控制，同时实现多主体交互控制、主体与场景融合控制，能够无缝集成人物、道具和场景。

Vidu自最初上线以来，就一直致力于解决视频模型中「一致性」的核心难题：早在7月底全球上线的时候，Vidu 就推出「角色一致性」功能，用户可上传自定义的角色图，然后指定该角色在任意场景中做出任意动作；

在9月初，Vidu全球首发了「主体参照」功能，允许用户上传任意主体的一张图片，通过描述词任意切换场景。这次 Vidu 1.5 则是进一步深化了在「一致性」方面的领先布局和深厚优势。

对于单主体而言，通过上传特定主体的不同角度或不同景别下的图片，Vidu 1.5 能实现100%精准控制。

比如下面的复古美女，造型极具复杂度，但无论在何种景别、视角下，甚至是特写镜头中，角色的形象都能始终保持高度一致。通常视频模型在生成侧面、背面等刁钻视角的画面时，往往靠模型“自行脑补”，这过程中就容易出现各种不满足用户预期的画面，Vidu 1.5完全避免了这一问题，能够保证不同视角下主体信息的准确。

多主体一致性，三张图稳定输出

接下来，才是Vidu真正放大招的时候了。现在，任何人可以在「多图参考」功能中选择上传多个主体。它既可以是人物角色，也可以是人物+道具物体、环境背景等等，即便是「多主体」Vidu 1.5也能做到一致性控制。

主体+场景：任意地点想做什么就做什么

上传主体和场景图，就可以实现主体和场景的无缝融合。

例如，我们让马斯克穿上东北大花袄骑着电动车在游乐园逛。

无微调大一统架构

以前的视频模型如果想实现一致性生成能力，都不得不对每个场景设计相应的模型进行微调。它们并不能像语言模型一样，通过上下文学习，基于少量的示例或提示，快速适应新任务。

生数科技却探索出了一条完全与众不同的路。

秉承通用性的理念，Vidu有和LLM一致的设计哲学：

设计哲学一致外，在架构复杂性、数据多样性、生成效率等方面，多模态大模型门槛更高，在此挑战下，Vidu在世界范围内率先推动多模态大模型产生智能涌现，如OpenAI引领LLM的进步和创新。

省去“炼丹”环节，一款“LoRA终结器”

上述突破性的工作源自于Vidu 1.5背后基础模型能力的全面提升，而非业界主流的LoRA微调方案，无需专门的数据采集、数据标注、微调训练环节，一键直出高一致性视频。

此前LoRA微调一直是业界解决一致性问题的主流方案。LoRA（Low-Rank Adaptation）方案，即在预训练模型的基础上，用特定主体的多段视频进行微调，让模型理解该主体的特征，从而能生成该主体在不同角度、光线和场景下的形象，保证其在若干次不同生成时的一致性。

比如创作一只卡通狗的形象，想生成连续一致的视频画面，但模型在预训练过程中并没有学习过该形象，所以需要拿卡通狗的多段视频，让模型进一步训练，直到认识这只卡通狗长什么样。

但通常LoRA需要20～100段的视频，数据构造繁琐，且需要一定的训练时间，通常需要数个小时甚至更久的时间，成本是单次视频生成的成百上千倍。

此外，LoRA微调模型容易产生过拟合，即在理解主体特征的同时，也会遗忘大量原先的知识。这导致对于动态的表情或肢体动作的变化，很难做到有效控制，容易产生僵硬或不自然的效果。在复杂动作或大幅度变换时，微调模型也无法很好地捕捉细节，导致主体特征不够精准。

因此，LoRA主要适用于大多数简单情形下的主体一致性需求，但对于高复杂的主体或问题场景，需要更多的微调数据和更复杂的模型微调策略。

而Vidu 1.5基于通用模型能力的提升，仅靠三张图就实现高可控的稳定输出，直接省去“炼丹”环节，堪称是“ LoRA终结器”。

结语

总的来说，Vidu1.5视觉模型是一个功能强大的视频生成工具，它不仅提高了视频生成的效率和质量，还推动了视觉智能的发展。随着技术的不断进步和应用的拓展，Vidu1.5有望在未来发挥更大的作用。（文/宋雨涵）

【深度观察】马斯克穿大花袄骑电动车逛游乐园？国产地表最强视频模型震惊歪果仁，Vidu1.5让视觉模型进入上下文时代