2月16日,OpenAI推出文生视频大模型Sora, 区别于动画生成,通过文字描述即可生成1分钟拟真视频,能通过多视角将整个视频的画面非常连贯地呈现出来。同时还能输出不同尺寸、分辨率、宽高比的视频。无疑是大模型领域一大王炸技术,对短视频和广告等行业形成巨大冲击。
2月16日,OpenAI推出文生视频大模型Sora, 区别于其他大模型生成的动画式视频,只要通过文字描述即可生成1分钟拟真视频,能通过多视角将整个视频的画面非常连贯地呈现出来。同时还能输出不同尺寸、分辨率、宽高比的视频。无疑是大模型领域一大王炸技术,对短视频和广告行业形成巨大冲击。
文生视频已成为生成式人工智能领域新一轮军备竞赛。OpenAI、谷歌、微软等公司都在不断发力。
Sora主要的优势在于以往文生视频软件是在2D平面上操作图形元素,视频将多个真实图片做成组合,而Sora可以像人一样理解真实世界和逻辑,模拟出真实的物理世界。
Sora可以理解很长的提示词,这在一定程度上要归功于OpenAI过去在Dall-E和GPT模型上的工作,2023年热门 AI 图像生成器的这是其热门 AI 图像生成器Dall-E3升级到最新版本,引起大众的关注。而Sora借用了Dall-E3的重现技术,这项技术可以为视觉训练数据生成高精准度的描述性文字说明。该模型还可以从静止图像生成视频,扩展现有视频或填充缺失的帧。
当然Sora也有弱点,比如难以准确地描述复杂场景的物理现象,难以理解因果关系,例如被人咬过的饼干上可能没有咬痕。OpenAI没有透露Sora何时候能被广泛使用,但表示希望首先采取“几个重要的安全措施”,包括满足OpenAI现有的安全标准,禁止极端暴力、虚假信息、保护名人肖像和个人IP等。
360创始人周鸿祎表示,Sora意味着AGI(通用人工智能)实现或将从10年缩短到一至两年。
通用人工智能(AGI)是一种更高级的人工智能形式,更接近类人智能,具有执行更广泛任务的能力。无疑,Sora模型展现出了对真实世界的理解和模拟能力。OpenAI开发的这款模型能够理解视频中的复杂场景和动态,这种能力是AGI发展中的一个关键组成部分,涉及到机器对环境的感知和反应。而Sora在视频制作方面的能力可能会对相关行业产生颠覆性影响,这种影响力可能会激发更多的创新和应用,从而推动整个人工智能领域的发展。
大模型的开发将对直播电商、影视制作、宣传片制作等场景渗透,也会影响到相关行业的教育市场,刺激国内文生视频大模型技术的开发。对于很多人担心的Sora打击影视工业的问题,周鸿祎表示,视频主题、脚本、分镜头的策划、台词的配合这些都还需要人来提供创意,机器需要人给出提示词,简而言之,Sora可以成为创作工具,但不是取代。