OpenAI发布Sora大模型,数据是最关键的涌现因素?

近日,美国人工智能公司OpenAI发布了“文生视频”大模型Sora。它能够根据文本描述生成长达60秒连贯流畅的的视频,同时保持视频中出现的人物、景色的连贯性,其中既能实现多角度镜头的自然切换,还包含复杂的场景和生动的角色表情,展现出令人惊叹的视频生成效果。

随着模型的发布,业内围绕技术的猜想随即展开。有人认为Sora创新的模型架构为大模型的发展开辟了新道路,也有人认为Sora的推出让通用人工智能到来的日期大大提前,还有市场人士表示Sora的爆红与OpenAI高超的营销密不可分。可以预见的是,Sora的横空出世,无疑将促使人工智能引领新一轮行业变革。

还有业内人士指出,AI视频生成的难点在于,一方面视频是连续的多帧图像,并且要有逻辑性,并非简单的图片组合;另一方面是带来模型复杂度提升、计算难度和成本的提升。此外,文生视频需要大量的“文本-视频”配对数据,而目前缺乏多样化的数据集,且数据标注的工作量较大。因而此前视频大多为5-15秒,而Sora将视频时长提升至1分钟,支持生成多个镜头,同时基本维持了角色和视觉风格的一致性,并能在一定程度上“理解”现实世界。

在Sora的技术报告中,完全没有讨论训练来源和构建,这可能意味着数据很可能是Sora成功的最关键因素。很多人好奇Sora的数据来自哪里,当前的猜测有:游戏引擎、电影、纪录片、电影长镜头等。例如,PyTorch创始人Soumith Chintala从视频推测Sora是由游戏引擎驱动的,并为游戏引擎生成组件和参数。纽约大学助理教授谢赛宁推测,整个Sora模型可能有30亿个参数。

文生视频模型需要大量的视频数据进行训练,包含各种场景、人物、动作、物品等,以帮助模型学习视频的生成规律和运动轨迹等重要元素。在训练数据层面,云测数据认为数据标注的质量与效率、行业知识经验丰富程度和数据的隐私安全,是发挥着训练数据价值的重要维度,影响着模型的效果。

有科技大咖指出,Sora可能使用了虚幻引擎5合成的游戏视频训练数据,从视频的色彩、细节来看这个判断有一定的可信度。这样看来OpenAI手里已经掌握了一批高质量视频训练数据,同时找到了新的高效数据合成方法。此外,在训练方法、模型架构、算力需求等方面,Sora也进行了创新,将ChatGPT、DALL·E 3等模型融合在一起。

目前Sora的训练数据源是业界普遍的关注重点,但OpenAI一如既往遵循“ClosedAI”原则,并没有透露相关信息。