【深度观察】OpenAI发布全新模型sCM,提升50倍效率,打破扩散模型传统思路!视频实时生成将不再是梦

引言

【算力豹导读】OpenAI刚刚宣布了一项重大技术突破,推出了名为sCM的新型连续时间一致性模型。sCM将开启视频,图像、三维模型、音频等实时、高质量、跨领域的生成式人工智能新阶段。

仅需2步就能生成高质量图片、3D模型等实现50倍时钟加速,尤其是在高分辨率任务上相当出色。

目前,扩散模型生成图片最快的是Stability AI开源的SD快速版本,4步就能生成高质量图片。而Scm在保证质量的前提下又将推理效率提升了1倍,同时简化了连续时间一致性模型的理论公式,允许模型在更大数据集上进行稳定的训练和扩展。

一致性模型思路,打破固有

核心原理

sCM的核心原理是基于一致性模型思路,通过直接将噪声转换为无噪声样本来生成数据。

在传统扩散模型中,数据生成过程被视作一条从噪声到数据的渐进路径,每一步都通过去噪来逐渐恢复数据的清晰度。

一致性模型则恰恰相反,可找到一条更直接的路径,在单步或少数几步内直接从噪声状态跳跃到数据状态。

sCM采用了连续时间框架,使得模型在理论上可以在连续的时间轴上进行操作,从而避免了离散时间模型中的离散化误差。在连续时间于一致性模型中,模型的参数化、扩散过程和训练目标都被重新定义,以适应连续时间的设置。

例如,模型的参数化不再依赖于离散的时间步,而是直接依赖于时间本身。这种连续时间的参数化方式使得模型能够更精确地捕捉数据生成过程中的动态变化。

网络架构方面

sCM引入了改进的时间条件、自适应组归一化、新的激活函数和自适应权重,以提高模型的训练稳定性和生成质量。改进的时间条件使得模型能够更准确地感知时间t的变化,从而在生成过程中做出更合理的决策。

自适应组归一化则有助于模型在训练过程中保持内部特征的稳定性,减少训练过程中的噪声干扰。新的激活函数被引入以增强模型的非线性表达能力,使得模型能够更好地学习复杂的数据分布。

而自适应权重的引入允许模型根据训练数据的分布动态调整损失函数中的权重,从而减少了不同时间步长之间的损失方差。

总结起来看sCM模型基于扩散模型的不同在于:

sCM是基于扩散模型的改进: sCM依赖于扩散模型的PF-ODE来定义训练目标和采样路径,它并不是一个完全独立的模型。

sCM关注单步去噪: sCM的训练目标是学习一个能够在单个时间步内进行有效去噪的函数,而不是像扩散模型那样进行多步迭代去噪。

sCM采样速度更快: 由于sCM只需要进行少量采样步骤(例如两步),因此其采样速度比扩散模型快得多。

sCM并非一步到位:sCM的单步去噪并非一步到位地去除所有噪声,而是沿着PF-ODE的轨迹向更清晰的方向移动一步,多次迭代操作最终达到去噪效果。

sCM:两步到位,速度起飞!

OpenAI基于之前的consistency models研究,并吸取了EDM和流匹配模型的优点,提出了TrigFlow,一个统一的框架。这个框架升级的地方在于,它简化了理论公式,让训练过程更稳定,还把扩散过程、扩散模型参数化、PF-ODE、扩散训练目标以及CM参数化都整合成更简单的表达式了!这为后续的理论分析和改进奠定了坚实的基础。

基于TrigFlow,OpenAI开发出了sCM模型,甚至可以在ImageNet 512×512分辨率上训练15亿参数的模型,简直是史无前例!这是目前最大的连续时间一致性模型!

sCM 最厉害的地方在于,它只需两步采样,就能生成与扩散模型质量相当的图像,速度提升50倍!例如,最大的15亿参数模型,在单个A100 GPU上生成一张图片只需0.11秒,而且还没做任何优化!如果再进行系统优化,速度还能更快,简直是打开了实时生成的大门!

性能评估与优势

1

高效的图像生成

OpenAI用FID(Fréchet Inception Distance它是一种用于评估生成模型生成图像质量的指标)分数(越低越好)和有效采样计算量(生成每个样本所需的总计算成本)来评估sCM的性能。

结果显示,sCM两步采样的质量与之前最好的方法相当,但计算量却不到10%!在 ImageNet 512×512 上,sCM的FID分数甚至比一些需要63步的扩散模型还要好!

在CIFAR-10上达到了2.06的FID,ImageNet 64×64上达到了1.48,ImageNet 512×512上达到了1.88,与最好的扩散模型的FID分数差距在10%以内。

2

跨领域生成能力

sCM不仅能够生成高质量的图像

sCM同样具备生成三维模型的能力。这对于3D打印、虚拟现实等领域来说具有重要意义,因为它可以快速生成高质量的三维模型数据。

通过利用sCM的高效生成能力,可以加速三维模型的设计和制作过程,提高生产效率。

除了图像和视频生成外,sCM还能处理音频内容的生成。这扩展了sCM的应用范围,使其能够在音频领域也发挥作用。

在音乐制作、音频设计等领域,sCM可以用于生成或编辑音乐和声音效果,为创作者提供更多的创作灵感和工具。

3

计算成本降低

与传统扩散模型相比,sCM在保证样本质量的前提下显著降低了计算成本。这使得sCM在资源受限的环境中也能实现高效的生成任务。

未来展望与应用

实时视频生成:随着sCM的推出,实时视频生成将不再是梦。sCM的高效采样能力有望推动视频生成技术的进一步发展,为媒体、娱乐等领域带来更多创新应用。

系统优化与定制:OpenAI的研究暗示了进一步系统优化的潜力,可以根据各个行业的特定需求定制这些模型。这将使得sCM在不同领域中发挥更大的作用。

推动AI技术发展:sCM的发布不仅提升了图像生成的速度和质量,也为AI技术的进一步发展和应用提供了新的思路和方法。它将推动AI技术在更多领域的应用和发展。

结语

OpenAI发布的sCM新型连续时间一致性模型在图像生成速度上实现了50倍的提升,这一技术突破将为实时视频生成等应用带来革命性的变化。同时,sCM的跨领域生成能力和计算成本降低的优势也将推动AI技术在更多领域的应用和发展。(文/宋雨涵)