谷歌版Sora来了，推出视频模型VEO 2和最新版Imagen 3，4K高清狠揍OpenAI！-DOIT-数据产业媒体与服务平台

引言

【算力豹导读】在OpenAI的Sora项目遭受广大网友吐槽之际，谷歌迅速且有力地展开了反击行动：就在12月16日，随着Veo 2、Imagen 3及Whisk这一系列创新技术的惊艳亮相，谷歌再次站在了AI视频与图像生成领域变革的最前沿。

谷歌可谓是向OpenAI发起了新一轮的强劲挑战。新问世的Veo 2，凭借其卓越表现，已赢得了众多用户的青睐，他们纷纷表示该模型“已超越Sora”。

作为谷歌当前最尖端的视频生成模型，Veo 2在捕捉现实世界的物理运动及细微差别方面展现出了非凡的实力，同时，它还深度理解了电影摄影的精髓（如镜头类型与效果），并支持最高可达4K的分辨率，为用户带来了前所未有的视觉盛宴。

没有对比就没有伤害

让我们通过一个实例来说明，当我们使用相同的提示“一双巧手在木制砧板上熟练地切着一个熟透的西红柿”来生成一个切西红柿的视频时，会观察到怎样的差异。

在Veo 2的呈现中，西红柿会随着刀刃的前后移动而自然地滚动，其被切割后的横断面清晰可见，细节逼真。尽管切片略显厚实，但每一片的厚度都保持了一致性，且能够整齐地叠放在一起，展现出了高度的真实感和精细度。

相比之下，Sora的表现则显得有些令人啼笑皆非。它似乎完全忽略了西红柿的存在，而是对着手指疯狂地挥刀，仿佛是在进行一场毫无意义的动作表演。结果，即便“切”了半天，西红柿依然完好无损地留在那里，丝毫未损，这与我们的预期大相径庭。

Veo 2强势升级，4K电影级画质

设想一下，仅凭简短的文字描述，就能轻松生成分辨率高达4K、时长可观的精致视频。Veo 2正是这样一项具有颠覆性的创新技术。它能够响应从简单到复杂的各种指令，并在物理模拟的过程中，呈现出令人赞叹的生成质量。

如今，使用Veo 2就如同与一位电影摄影师进行沟通一般自然。你无需再耗费精力去讨论技术参数，或是去猜测那些复杂的标题，只需用日常习惯的术语，清晰地表达出自己想要的内容，Veo 2就能为你呈现出理想中的视频效果。

另外，我们还可以进行更精确的相机控制，比如下图就是一个包含第一人称视角、转移焦点的提示。可以看到，车内的皮革内饰、车速表等高频细节，给人留下极其深刻的印象。

更加令人称奇的是Veo 2对于专业摄影术语的精准把握。只需在指令中键入“18mm lens”，Veo 2便能立刻理解并创建出广角镜头的拍摄效果；同样，若是在指令中加入“浅景深”，它便能巧妙地模糊背景，使主体更加突出。

不仅如此，Veo 2在生成视频时极少出现“幻觉”现象，比如AI视频中常见的多指问题。以沃顿商学院教授Ethan Mollick实测Sora的案例为例，在一段展示水獭在飞机上使用WiFi的画面中，Sora竟错误地给水獭加上了人类的手，这一诡异现象在Veo 2上则极少发生。

看看Veo 2在双手细节的生成，堪称极致。

当然，Veo 2生成的视频，并非没有破绽。它在创建逼真、充满活力或复杂的视频，以及在复杂的运动场景中，难以保持一致性。

通过人类评估，Veo 2模型在与几大顶尖视频模型的对比中，脱颖而出。它不仅仅是简单地生成视频，更是对现实世界物理规律、人类动作，表情方面得到了极致的理解。

测试统一在720p分辨率下进行，其中Veo生成8秒视频，VideoGen生成10秒视频，其他模型则生成5秒视频。评分者观看了所有视频的完整长度。
注意看，对比测试对象中也出现了国产AI视频模型（可灵AI、Minimax）以及最新发布的Sora Turbo。
所有比较均在720p分辨率下进行。Veo的视频样本长度为8秒，VideoGen的为10秒，其他模型的为5秒。评分者将看到完整视频长度。

尽管Veo 2取得了显著进步，但在生成真实、动态或复杂场景的视频时，仍面临着保持场景连贯性的挑战。DeepMind表示将持续优化这些领域的性能。

DeepMind产品副总裁Eli Collins对媒体表示，随着模型逐渐具备规模化使用的准备，谷歌将通过其Vertex AI开发者平台提供Veo 2。

“未来几个月，我们将根据用户反馈持续迭代，并寻求将Veo 2的更新能力整合到谷歌生态系统中的相关应用中……我们预计明年会分享更多的更新内容。”

Imagen 3也实现重大突破

新版本不仅支持创作多种艺术风格（包括现实主义、幻想、肖像等），能够更精确地将文字描述转化为图像，以及生成更明亮、构图更协调的视觉作品。

Imagen 3模型在图像构图和细节准确性方面得到了增强，支持从写实到抽象的各种风格，能够生成更丰富的纹理，并更加忠实地回应用户提示。

目前，Imagen 3已经通过谷歌实验室的ImageFX工具在100多个国家上线，全球用户可以试验其尖端功能。

此外，谷歌还推出了Whisk，这是一款结合了Imagen 3和Gemini视觉分析能力的创意工具。用户可以输入图像，生成详细的文字描述、重新混合风格，或设计个性化作品，如数字玩偶或搪瓷徽章。

谷歌介绍，Whisk结合了Imagen 3模型和Gemini的视觉理解与描述能力。Gemini模型会自动为用户的图像生成详细的文字描述，并将这些描述传递给Imagen 3。这一过程让用户能够以有趣的新方式重新混合主题、场景和风格。

写在最后

谷歌还推出了名为Whisk的新工具，它结合了Imagen 3和Gemini视觉分析能力。Whisk可以让用户上传图像并自动生成详细的文字描述、重新混合风格或设计个性化作品，如数字玩偶或徽章。通过Gemini模型，Whisk能理解图像内容并生成与之相匹配的文字描述，进一步丰富了创作和个性化的可能性。

谷歌推出的Veo 2视频生成工具和Imagen 3图像生成模型在AI创作领域具有重大意义。这些更新不仅提升了视频和图像生成的质量和真实感，还为创作者提供了更多定制化和个性化的选项。随着这些模型的不断迭代和广泛应用，预计将对创意工作流程和各行各业产生深远影响。（文/宋雨涵）

谷歌版Sora来了，推出视频模型VEO 2和最新版Imagen 3，4K高清狠揍OpenAI！

lixiangjing

相关推荐

近期文章

热门标签