引言
【算力豹导读】今日凌晨2时,OpenAI正式拉开了其技术直播系列第三天的帷幕,并在这场万众瞩目的盛宴中,隆重揭晓了全新力作——Sora Turbo。与先前的版本相比,Turbo在生成效率上实现了质的飞跃,它能够以惊人的速度,直接将文本转化为长达20秒的1080P高清视频,这一突破性成就,无疑使其在全球顶尖视频生成模型的行列中占据了一席之地。
不仅如此,Turbo还展现出了前所未有的灵活性与创意空间。它支持文本与图片/视频素材的巧妙结合,能够生成高度定制化的视频内容,从而极大地提升了生成效果的可控性。想象一下,若您渴望在一段普通的视频中融入梵高《星夜》那如梦如幻的艺术风格,只需轻轻一点,上传原视频并附上您的创意描述,Turbo便能轻松为您实现这一梦想。
更令人振奋的是,即便您并非专业视频编辑出身,对AE、Nuke、C4D等复杂软件感到无所适从,借助Sora Turbo,您也能轻松为视频作品添上令人瞩目的特效,让创意在指尖自由流淌。
目前,Sora Turbo已全面开放使用,不设任何门槛与限制。尤为值得一提的是,ChatGPT Plus和Pro会员更是无需支付任何额外费用,便能享受这一前沿服务。这一举措无疑给广大用户带来了意外的惊喜,令人由衷赞叹OpenAI的诚意与实力。
直播虽短,内容震撼
奥特曼与Sora团队负责人Bill Peebles、研究副总Aditya Ramesh,以及Rohan Sahai、Joey Flynn开启了短短20分钟的在线直播。
相较于2月的原版Sora,他们今天带来了更高级的加速版Sora Turbo。
Sora能生成任意长宽比的视频,分辨率从480p到1080p,时长从5秒到20秒,还可以一次生成多个方向的视频版本,让我们选择其中最理想的一个。
包括文本到视频、图像到视频、视频到视频的功能。
这次,OpenAI着重介绍了Sora的几项功能:Remix(重混)、Re-cut(重新剪辑)、Storyboard(故事板)、Loop(循环)、Blend(混合)以及Style presets(风格预设)。
所有新功能一览:
OpenAI专为Sora设计的全新UI
Sora Turbo刚刚发布,大批热情的用户就涌入体验网站;服务器瞬间崩溃,导致OpenAI暂时关闭了新用户注册。
Sora Turbo的亮点
Sora Turbo是一款基于OpenAI早期技术报告中讨论的世界模拟技术的高端加速版。这些新增功能包括:从文本生成视频、生成动画图像,以及许多强大的视频功能,如重新混合视频风格、前后延伸时间,故事板,重新剪辑等,极大地拓展了创作者的创作空间。
在直播中,OpenAI展示了Sora的新功能。
其中包括“探索”页面,展示了由社区成员创作的AI生成视频流。
01
生成视频之外,还能分镜、加特效、无限创作
一打开主界面,用户便能轻松浏览和管理所有生成的视频内容。界面设计贴心,提供了网格视图和列表视图两种展示方式,方便用户根据个人喜好进行选择。此外,用户还可以自由创建文件夹和收藏夹,以便更好地整理和查找视频。书签功能更是为用户提供了便捷的回顾途径。据研究人员介绍,这样的主界面设计旨在助力用户更好地构思和创作故事。
在主页面的底部中央,Sora 提供了文生视频和图生视频两大功能。用户只需输入文字描述,如“长毛猛犸象在沙漠中行走,广角镜头拍摄”,然后选择视频的画面比、分辨率、时长(5-20秒)以及最终生成的视频数量(最多四段),即可轻松获得逼真的视频效果。这些视频不仅质感十足,还高度贴合用户的输入指令,让人毫不意外于Sora的出色表现。
甚至,我们可以把猛犸象变成「机械猛犸」
值得注意的是,Sora 还推出了一系列独特且进阶的产品功能。这些功能主要围绕提升视频的表达能力,通过分镜、加特效等方式,帮助用户创作出自己心中的故事。其中,故事板(storyboard)被誉为一种全新的创意工具。它按照时间轴的方式,将一段故事(视频)切割成多个故事卡(视频帧)。用户只需设计和调整每张故事卡,Sora 就能自动将其串联成一段流畅的故事。这一功能类似于电影分镜或动画手稿,让用户能够像导演或漫画师一样,通过绘制分镜来构思和创作视频。
比如研究人员设想的第一个分镜是,「美丽的白鹤站在小溪中,拥有一条黄色的尾巴。」第二个分镜是,「鹤将头探入水中,并捉出一条鱼」。那他做的工作就是,分别创建这两张故事卡(视频帧),并在两者之间设大概五秒钟的间隔。这个间隔对 Sora 很重要,给了它把两组动作连起来的发挥空间。最终,他得到了一个完整的视频镜头,「美丽的白鹤站在小溪中,它拥有一条黄色的尾巴。接着鹤将头探入水中,并捉出一条鱼。」
Storyboard(故事板):
更为神奇的是,带有关键帧的时间轴,是Sora非常亮眼的新功能。在个人时间轴上,可以组织和编辑独特的视频序列。
故事板不仅支持故事卡,还可以直接添加图片和视频素材。用户可以将任意图片或视频拉入故事板,结合故事卡进行创作。以视频为例,用户可以将已有的视频片段导入故事板,进行剪切和编辑,为视频的前方和后方留出创作空间,从而添加新的开头和结尾。这样的设计让故事板具备了无限创作的可能性。用户可以不断地对Sora生成的20秒视频进行创作、剪切和再创作,直至达到理想的镜头效果。
A vast redlandscape with adocked spaceship in the distance
广袤的红色星球景观中,一艘银光闪闪的宇宙飞船静静停靠在远处
Looking out frominside thespaceship, a spacecowboy standscenter frame
透过宇宙飞船的舷窗向外眺望,一位星际牛仔挺立在画面中央
Detailed close up view of astronaut’seyes framed by aknitted fabricmask
特写镜头下,宇航员深邃的双眼透过织物面罩的框架凝视着前方
Remix(重混)
此外,Sora 还提供了其他强大的功能,如通过文字直接修改视频、无缝融合两段不同的视频以及改变视频画风等。这些功能相当于给视频添加了“特效”,让用户能够更灵活地表达自己的想法和创意。相比之下,一般的文生视频产品可能需要用户不断调整提示词并重新生成视频,而Sora 则允许用户直接在生成的视频上进行修改和加工,从而更贴合用户的想象和创意。
这个功能,可以让我们替换、删除或重新想象视频中的元素。
比如,我们先生成一个场景——打开通向图书馆的大门。
然后,通过Remix把门更换成法式的门。
再把图书馆变成一艘宇宙飞船。
接着去掉宇宙飞船,加入丛林场景。
最后把丛林换成月球表面。
总的来说,Sora不仅在视频生成方面表现出色,还带来了更多独特的视频创作功能。这些功能相当于给视频添加了分镜、剪辑和特效等元素,让用户能够更自由地创作出自己真正想要表达的内容。正如OpenAI研究人员所说:“如果你期望只需点击一个按钮就能生成一部电影,那么你可能对Sora的期望有所误解。Sora是一种工具,它允许人们在多个地方尝试多个想法,并探索以前完全不可能的事情。我们认为这是创作者的超级特殊延伸。”
视频对AI发展的重要性
OpenAI的首席执行官Sam Altman强调,视频对AI发展的重要性。
在发布会现场,OpenAI的首席执行官Sam Altman强调了视频对于AI技术发展的重要性,并从三个方面阐述了这一观点:
1.为创意人士制作工具:Altman表示,OpenAI一直致力于为创意人士提供强大的工具,帮助他们推动创作。这种新工具的推出为AI在创意领域的应用打开了新的篇章,并为未来的AI创作工具展现了令人兴奋的前景。
2.突破文本限制:他指出,若AI仅限于文本互动,将错失许多重要的创作维度。通过AI生成视频,用户将能够以全新的方式与技术互动,极大地改变我们与计算机的交互方式。
3.对AGI的影响:视频生成对于实现通用人工智能(AGI)的目标至关重要。Altman认为,视频将成为AI学习的关键环境,帮助AI掌握许多复杂的技能和任务。
根据Sora System Card的表述:
Sora的设计灵感来源于大型语言模型(LLM),模型通过训练互联网规模数据来获得通用能力。LLM范式的成功部分得益于使用了能够巧妙地将文本(包括代码、数学公式和各种自然语言)的不同模态统一起来的标记。
LLM使用文本标记,Sora使用视觉补丁。
补丁是训练处理各种类型和视频和图像的生成式模型时一种高度可扩展且有效的表示方法。将视频转换为补丁的过程是,首先将视频压缩到低维潜在空间,然后将其表示分解为时空补丁。
同时,Sora也接受了多种数据集的训练,包括公开可用数据的混合、通过合作伙伴关系访问的专有数据,以及内部开发的定制数据集。
精选的公开可用数据,主要收集自行业标准机器学习数据集和网络爬虫。
来自数据合作伙伴关系的专有数据,我们与合作伙伴建立合作关系,以访问非公开数据。例如,OpenAI与Shutterstock和Pond5合作,构建和提供AI生成的图像。及与合作伙伴合作,委托和创建符合需求的数据集。
写在最后
Sora对于OpenAI的意义,绝非浅尝辄止所能概括。团队在不懈的探索与钻研中惊喜地发现,视频模型在历经大规模训练的洗礼后,竟能展现出诸多令人瞩目的新能力,这使得Sora得以精准地模拟现实世界中人类、动物及环境的细腻之处。研究成果有力地证明,扩展视频生成模型为构建物理世界的通用模拟器铺设了一条光明璀璨的新道路。
正因如此,将Sora迅速融入大众的日常生活,借助广泛的数据资源来不断优化世界模型,对于OpenAI实现其梦寐以求的AGI(人工智能通用智能)愿景而言,具有举足轻重的地位。在技术的持续迭代与革新中,Sora不仅为OpenAI的进步注入了强劲的动力,更在潜移默化中激发了人类无尽的创造力。
尽管当前版本的Sora仍存些许瑕疵,尚未达到尽善尽美的境地,但它已然迈入了我们认为将对增强人类创造力产生深远影响的崭新阶段。我们满怀憧憬,迫不及待地想要亲眼目睹这个世界将如何利用Sora创造出前所未有的奇迹。作为Sora的缔造者,OpenAI对此充满信心与期待,让我们静候佳音吧。(文/宋雨涵)