OpenAI文生视频大模型Sora：开启视觉语言交互新篇章-DOIT-数据产业媒体与服务平台

2月16日，OpenAI推出文生视频大模型Sora, 区别于动画生成，通过文字描述即可生成1分钟拟真视频，能通过多视角将整个视频的画面非常连贯地呈现出来。同时还能输出不同尺寸、分辨率、宽高比的视频。无疑是大模型领域一大王炸技术，对短视频和广告等行业形成巨大冲击。

2月16日，OpenAI推出文生视频大模型Sora, 区别于其他大模型生成的动画式视频，只要通过文字描述即可生成1分钟拟真视频，能通过多视角将整个视频的画面非常连贯地呈现出来。同时还能输出不同尺寸、分辨率、宽高比的视频。无疑是大模型领域一大王炸技术，对短视频和广告行业形成巨大冲击。

Sora制作的视频中，一名女子准备吹灭生日蛋糕上的蜡烛
（图片来源OpenAI，CNET截图）

文生视频已成为生成式人工智能领域新一轮军备竞赛。OpenAI、谷歌、微软等公司都在不断发力。

Sora主要的优势在于以往文生视频软件是在2D平面上操作图形元素，视频将多个真实图片做成组合，而Sora可以像人一样理解真实世界和逻辑，模拟出真实的物理世界。

Sora可以理解很长的提示词，这在一定程度上要归功于OpenAI过去在Dall-E和GPT模型上的工作，2023年热门 AI 图像生成器的这是其热门 AI 图像生成器Dall-E3升级到最新版本，引起大众的关注。而Sora借用了Dall-E3的重现技术，这项技术可以为视觉训练数据生成高精准度的描述性文字说明。该模型还可以从静止图像生成视频，扩展现有视频或填充缺失的帧。

当然Sora也有弱点，比如难以准确地描述复杂场景的物理现象，难以理解因果关系，例如被人咬过的饼干上可能没有咬痕。OpenAI没有透露Sora何时候能被广泛使用，但表示希望首先采取“几个重要的安全措施”，包括满足OpenAI现有的安全标准，禁止极端暴力、虚假信息、保护名人肖像和个人IP等。

360创始人周鸿祎表示，Sora意味着AGI（通用人工智能）实现或将从10年缩短到一至两年。

通用人工智能(AGI)是一种更高级的人工智能形式，更接近类人智能，具有执行更广泛任务的能力。无疑，Sora模型展现出了对真实世界的理解和模拟能力。OpenAI开发的这款模型能够理解视频中的复杂场景和动态，这种能力是AGI发展中的一个关键组成部分，涉及到机器对环境的感知和反应。而Sora在视频制作方面的能力可能会对相关行业产生颠覆性影响，这种影响力可能会激发更多的创新和应用，从而推动整个人工智能领域的发展。

大模型的开发将对直播电商、影视制作、宣传片制作等场景渗透，也会影响到相关行业的教育市场，刺激国内文生视频大模型技术的开发。对于很多人担心的Sora打击影视工业的问题，周鸿祎表示，视频主题、脚本、分镜头的策划、台词的配合这些都还需要人来提供创意，机器需要人给出提示词，简而言之，Sora可以成为创作工具，但不是取代。

OpenAI文生视频大模型Sora：开启视觉语言交互新篇章

nina

相关推荐

近期文章

热门标签