苹果也要上桌了!又一视频生成大模型STIV发布,实现可扩展的文本与图像条件视频生成

引言

【算力豹导读】近年来,视频生成技术迎来了飞速的发展,特别是基于Diffusion Transformer(DiT)架构的视频生成模型Sora的诞生,更是为这一领域注入了新的活力。

研究者们对如何将文本及其他条件整合到DiT架构中进行了广泛的探索。例如,PixArt-Alpha通过采用跨注意力机制,实现了文本与图像的有效结合;SD3则将文本与噪声块巧妙结合,并通过MMDiT模块实施了自注意力机制。然而,尽管这些研究取得了一定的成果,但纯文本驱动的视频生成(T2V)在创建连贯且逼真的视频方面,仍然面临着诸多挑战。

为了克服这些挑战,业界提出了文本-图像到视频(TI2V)的任务。这一任务通过引入初始图像帧作为参考,为视频生成提供了更加明确的约束条件,使得生成的视频在内容和形式上更加符合人们的期望。

当前,该领域仍面临着诸多挑战。如何有效地将图像条件融入DiT架构,如何在保证模型稳定性的同时提高大规模训练效率,都是亟待解决的问题。

在此背景下,研究者提出了一种新的框架——STIV(可扩展的文本与图像条件视频生成),以期为视频生成的研究提供一种系统的方法。STIV框架的目标是通过整合图像条件和文本条件,构建一个既可以完成T2V任务,又能处理TI2V任务的统一模型,从而为视频生成的多样化和精确性提供支持。通过对不同架构和策略的系统性分析,STIV框架旨在提高生成视频的质量和一致性。

STIV框架解读

STIV框架专注于可扩展的文本与图像条件视频生成。其基础模型架构基于PixArt,利用冻结VAE转换输入帧为时空潜在嵌入,并由可学习的DiT块处理。文本处理采用T5 tokenizer和CLIP文本编码器。

模型采用分解的时空注意力机制,先对空间标记执行空间自注意力,再对时间标记执行时间自注意力,有助于预加载T2I模型权重并保持视频信息处理。

STIV使用原始图像分辨率等元信息作为微观条件,通过正弦嵌入层和MLP投影到d维嵌入空间,与扩散时间步和文本标记嵌入相加形成单例条件,用于生成Transformer层的参数。

模型采用旋转位置嵌入(RoPE)增强处理相对时空关系的能力,分别对空间和时间注意力应用二维和一维RoPE。

训练目标采用流动匹配,定义源分布与目标分布间的条件最优传输,通过求解逆向时序SDE从高斯噪声中生成图像。

在训练时,STIV通过替换无噪声图像条件潜在表示实现图像条件整合,提升模型灵活性,支持T2V和TI2V生成,以及视频预测和帧插值。

结合联合图像-文本条件下的分类器无关引导(JIT-CFG)和图像条件随机丢弃,STIV实现多任务学习并缓解过拟合问题,提高生成质量。

STIV框架通过独特策略和结构,高效灵活地应对多种视频生成任务,为后续研究提供思路与基础。

STIV的模型特点

01

支持多模态条件输入

TIV模型不仅支持文本条件的输入,还可以接收图像作为生成的参考,这为复杂的多模态生成任务提供了强有力的支持。

02

创新的架构设计

STIV基于PixArt-Alpha架构,通过冻结的变分自编码器(VAE)将输入帧转换为时空潜变量,并使用可学习的DiT块进行处理。

模型采用了分解时空注意力的方法,分别处理空间和时间维度的特征,从而在降低计算复杂度的同时,实现了高效的信息处理。

03

联合图像-文本无分类器引导(JIT-CFG)

这一技术突破通过同时利用文本和图像条件,在视频生成过程中实现了更高的准确性和质量。

实验证明,图像条件随机丢弃结合JIT-CFG不仅能自然地实现多任务训练,还有效解决了高分辨率视频生成模型训练的“静止”问题。

04

高效稳定的训练技术

STIV在稳定性和训练效率方面也进行了多项创新。

通过适当的技术手段,大大降低了内存需求,使得更大规模模型的训练成为可能。

采用了渐进式训练策略,首先训练一个文本到图像(T2I)模型,用以初始化文本到视频(T2V)模型;随后,T2V模型用于初始化STIV模型。

多视角生成

多视角生成旨在从给定的输入图像创建新视角。这项任务对视角一致性要求较高,依赖于良好预训练的视频生成模型。通过将视频生成模型适配为多视角生成,可以验证预训练是否有效捕获了3D信息,从而提升生成效果。

当使用某些新视角相机的定义,并以初始帧为给定图像,预测接下来的新视角帧。通过训练一个TI2V模型并调整分辨率和训练步数,实现了与现有方法相当的表现,同时验证了时空注意力机制在保持3D一致性方面的有效性。

长视频生成

该公司开发了一种高效生成长视频的分层框架,包括两种模式的训练:(1) 关键帧预测,学习以较大时间间隔采样的帧;(2) 插值帧生成,通过学习连续帧,并将首尾帧作为条件。在采样阶段,首先使用关键帧预测模式生成关键帧,再通过插值模式生成中间帧,从而实现长视频生成。

未来及其应用前景

一、影视制作

高效视频生成:STIV模型凭借其强大的生成能力,能够迅速将详尽的文本描述和丰富的图像素材转化为细腻且高质量的视频片段。这一特性不仅缩短了影视制作周期,还极大地提升了制作效率,使得影视作品能够更快地从策划走向观众。

创意视频制作:创作者在构思视频内容时,可以充分利用STIV模型的灵活性,通过组合不同的文本描述和图像素材,轻松生成充满个性和创意的视频内容。这种创作方式不仅拓宽了视频内容的边界,还为创作者提供了更多元化的表达手段。

二、广告创意

广告视频制作:在广告行业中,STIV模型能够精准捕捉广告文案的精髓,并结合相关图像素材,快速生成富有感染力和吸引力的视频广告。这不仅降低了广告制作成本,还提高了广告的传播效率和市场响应速度。

个性化广告定制:STIV模型能够根据广告目标受众的喜好、兴趣和行为特点,调整输入条件和参数,生成符合其个性化需求的广告视频。这种定制化的广告内容不仅提高了广告的投放效果,还增强了受众对广告品牌的认同感和忠诚度。

三、教育培训

教学视频制作:教育机构在利用STIV模型制作教学视频时,可以将复杂的文本和图像内容转化为直观且易于理解的视频形式。这种教学方式不仅提高了学生的学习兴趣和参与度,还提升了教学效果和学生的学习成绩。

虚拟实验模拟:在理工科教学中,STIV模型能够生成逼真的虚拟实验模拟视频,帮助学生更好地理解实验过程和原理。这种虚拟实验不仅避免了传统实验中的安全隐患,还为学生提供了更多动手实践的机会和平台。

四、智能监控

视频预测:STIV模型能够根据已有的图像和视频内容,预测未来的视频帧,从而实现对监控视频的智能分析和预警。这种预测能力不仅提高了监控系统的智能化水平,还为安全防范提供了有力支持。

异常行为检测:通过训练STIV模型识别异常行为模式,监控系统能够在实时视频中自动检测并标记出异常行为。这种智能化检测方式不仅提高了异常行为发现的准确性和及时性,还为相关部门提供了更多处理异常事件的决策依据。

五、游戏开发

游戏视频内容创作:游戏开发者可以利用STIV模型生成流畅且具有叙事性的游戏视频内容,为游戏宣传和推广提供有力支持。这种视频内容不仅吸引了更多玩家的关注和兴趣,还提高了游戏的知名度和影响力。

游戏场景生成:STIV模型能够根据游戏文案和图像素材生成逼真的游戏场景视频。这些场景视频不仅为游戏开发提供了丰富的视觉素材,还为玩家提供了更加沉浸式的游戏体验。

六、社交媒体

短视频创作:在社交媒体短视频创作火热的今天,STIV模型为内容创作者提供了新的创作工具和平台。这种工具不仅简化了视频制作流程,还提高了视频创作的效率和质量。

个性化视频推荐:通过分析用户的喜好和行为数据,STIV模型能够精准生成符合用户需求的个性化视频推荐列表。这种推荐方式不仅提高了用户的观看体验和满意度,还为社交媒体平台带来了更多流量和收益。

写在最后

苹果的STIV模型无疑标志着视频生成AI领域的一次具有里程碑意义的重大进步。它不仅在技术上实现了突破,更以其卓越的生成能力和广泛灵活的应用前景,预示着未来视频创作领域即将迈入一个崭新的多模态创作时代。STIV模型的出现,意味着创作者们将拥有更为强大的工具来探索和实践他们的创意理念。

对于广大的创作者而言,STIV模型的潜力无疑是巨大的。它能够快速将文本描述和图像素材转化为高质量的视频内容,这一特性将极大地提升创作效率,使创作者们能够更加专注于创意本身,而无需在繁琐的技术细节上花费过多时间。借助STIV的强大功能,创作者们将能够更加高效地实现他们的创作目标,无论是制作一部引人入胜的短片,还是打造一部震撼人心的长篇巨制,都将变得更加轻松和便捷。(文/宋雨涵)