谷歌版Sora来了,推出视频模型VEO 2和最新版Imagen 3,4K高清狠揍OpenAI!

引言

【算力豹导读】在OpenAI的Sora项目遭受广大网友吐槽之际,谷歌迅速且有力地展开了反击行动:就在12月16日,随着Veo 2、Imagen 3及Whisk这一系列创新技术的惊艳亮相,谷歌再次站在了AI视频与图像生成领域变革的最前沿。

谷歌可谓是向OpenAI发起了新一轮的强劲挑战。新问世的Veo 2,凭借其卓越表现,已赢得了众多用户的青睐,他们纷纷表示该模型“已超越Sora”。

作为谷歌当前最尖端的视频生成模型,Veo 2在捕捉现实世界的物理运动及细微差别方面展现出了非凡的实力,同时,它还深度理解了电影摄影的精髓(如镜头类型与效果),并支持最高可达4K的分辨率,为用户带来了前所未有的视觉盛宴。

没有对比就没有伤害

让我们通过一个实例来说明,当我们使用相同的提示“一双巧手在木制砧板上熟练地切着一个熟透的西红柿”来生成一个切西红柿的视频时,会观察到怎样的差异。

在Veo 2的呈现中,西红柿会随着刀刃的前后移动而自然地滚动,其被切割后的横断面清晰可见,细节逼真。尽管切片略显厚实,但每一片的厚度都保持了一致性,且能够整齐地叠放在一起,展现出了高度的真实感和精细度。

相比之下,Sora的表现则显得有些令人啼笑皆非。它似乎完全忽略了西红柿的存在,而是对着手指疯狂地挥刀,仿佛是在进行一场毫无意义的动作表演。结果,即便“切”了半天,西红柿依然完好无损地留在那里,丝毫未损,这与我们的预期大相径庭。

Veo 2强势升级,4K电影级画质

设想一下,仅凭简短的文字描述,就能轻松生成分辨率高达4K、时长可观的精致视频。Veo 2正是这样一项具有颠覆性的创新技术。它能够响应从简单到复杂的各种指令,并在物理模拟的过程中,呈现出令人赞叹的生成质量。

如今,使用Veo 2就如同与一位电影摄影师进行沟通一般自然。你无需再耗费精力去讨论技术参数,或是去猜测那些复杂的标题,只需用日常习惯的术语,清晰地表达出自己想要的内容,Veo 2就能为你呈现出理想中的视频效果。

另外,我们还可以进行更精确的相机控制,比如下图就是一个包含第一人称视角、转移焦点的提示。可以看到,车内的皮革内饰、车速表等高频细节,给人留下极其深刻的印象。

更加令人称奇的是Veo 2对于专业摄影术语的精准把握。只需在指令中键入“18mm lens”,Veo 2便能立刻理解并创建出广角镜头的拍摄效果;同样,若是在指令中加入“浅景深”,它便能巧妙地模糊背景,使主体更加突出。

不仅如此,Veo 2在生成视频时极少出现“幻觉”现象,比如AI视频中常见的多指问题。以沃顿商学院教授Ethan Mollick实测Sora的案例为例,在一段展示水獭在飞机上使用WiFi的画面中,Sora竟错误地给水獭加上了人类的手,这一诡异现象在Veo 2上则极少发生。

看看Veo 2在双手细节的生成,堪称极致。

当然,Veo 2生成的视频,并非没有破绽。它在创建逼真、充满活力或复杂的视频,以及在复杂的运动场景中,难以保持一致性。

通过人类评估,Veo 2模型在与几大顶尖视频模型的对比中,脱颖而出。它不仅仅是简单地生成视频,更是对现实世界物理规律、人类动作,表情方面得到了极致的理解。

测试统一在720p分辨率下进行,其中Veo生成8秒视频,VideoGen生成10秒视频,其他模型则生成5秒视频。评分者观看了所有视频的完整长度。
注意看,对比测试对象中也出现了国产AI视频模型(可灵AI、Minimax)以及最新发布的Sora Turbo。
所有比较均在720p分辨率下进行。Veo的视频样本长度为8秒,VideoGen的为10秒,其他模型的为5秒。评分者将看到完整视频长度。

尽管Veo 2取得了显著进步,但在生成真实、动态或复杂场景的视频时,仍面临着保持场景连贯性的挑战。DeepMind表示将持续优化这些领域的性能。

DeepMind产品副总裁Eli Collins对媒体表示,随着模型逐渐具备规模化使用的准备,谷歌将通过其Vertex AI开发者平台提供Veo 2。

“未来几个月,我们将根据用户反馈持续迭代,并寻求将Veo 2的更新能力整合到谷歌生态系统中的相关应用中……我们预计明年会分享更多的更新内容。”

Imagen 3也实现重大突破

新版本不仅支持创作多种艺术风格(包括现实主义、幻想、肖像等),能够更精确地将文字描述转化为图像,以及生成更明亮、构图更协调的视觉作品。

Imagen 3模型在图像构图和细节准确性方面得到了增强,支持从写实到抽象的各种风格,能够生成更丰富的纹理,并更加忠实地回应用户提示。

目前,Imagen 3已经通过谷歌实验室的ImageFX工具在100多个国家上线,全球用户可以试验其尖端功能。

此外,谷歌还推出了Whisk,这是一款结合了Imagen 3和Gemini视觉分析能力的创意工具。用户可以输入图像,生成详细的文字描述、重新混合风格,或设计个性化作品,如数字玩偶或搪瓷徽章。

谷歌介绍,Whisk结合了Imagen 3模型和Gemini的视觉理解与描述能力。Gemini模型会自动为用户的图像生成详细的文字描述,并将这些描述传递给Imagen 3。这一过程让用户能够以有趣的新方式重新混合主题、场景和风格。

写在最后

谷歌还推出了名为Whisk的新工具,它结合了Imagen 3和Gemini视觉分析能力。Whisk可以让用户上传图像并自动生成详细的文字描述、重新混合风格或设计个性化作品,如数字玩偶或徽章。通过Gemini模型,Whisk能理解图像内容并生成与之相匹配的文字描述,进一步丰富了创作和个性化的可能性。

谷歌推出的Veo 2视频生成工具和Imagen 3图像生成模型在AI创作领域具有重大意义。这些更新不仅提升了视频和图像生成的质量和真实感,还为创作者提供了更多定制化和个性化的选项。随着这些模型的不断迭代和广泛应用,预计将对创意工作流程和各行各业产生深远影响。(文/宋雨涵)