【深度观察】Decart AI推出Oasis模型:能交互、可玩的Sora,视频生成模型或将进军游戏圈?

引言

【算力豹导读】2024年11月3日,两家初创公司Decart和Etched宣布,他们打造了一款世界上首个实时、可玩、可交互的世界模型——Oasis。

Oasis经过了数百万小时游戏视频的训练,仅接收用户的键盘输入即可实时生成开放世界游戏,但其中并不包含任何游戏引擎,只有一个AI基座模型。

然而,这款AI生成的“游戏”却引发了广泛的批评和争议。

Oasis的画面质量令人失望,其分辨率仅为360p,帧率更是低至20FPS,甚至不及任天堂64时代的游戏。更为严重的是,该AI模型存在显著的幻觉问题,导致游戏体验极不稳定。玩家无法进行复杂操作,甚至在简单的挖掘动作中,常常会被意外传送回地面。此外,游戏环境中的物体缺乏持久性,玩家的建造成果无法保存。

Oasis是如何炼成的

之前谷歌推出的GameNGen本质上仍是一个由AI驱动的游戏引擎,但Oasis的底层机制并不是游戏引擎,而是单一的视频生成模型,相当于一个能交互、可玩的Sora。

那么,Oasis究竟是如何做到的?

根据博客介绍,技术团队进行了数百次架构和数据实验,以确定用于快速生成自回归交互式视频的最佳架构。

Oasis模型均基于Transformer架构,由基ViT的变分自动编码器(VAE)和基于DiT的潜在扩散主干组成,使用了加速过的轴向、时空和因果注意力机制来克服长序列中的模型发散(divergence)。

Oasis的ViT+DiT架构

VAE就像是工厂里负责整理和识别原材料(游戏里的各种信息)的车间,它基于ViT(Vision Transformer)架构,能够对看到的游戏画面的相关信息进行加工整理。

主干即工厂的核心生产线,基于DiT(Diffusion Transformer)架构,负责将加工处理好的信息产出游戏内容,比如游戏场景、物体等。

同时,利用Decart的推理引擎,结合Etched公司的Sohu(Transformer架构的ASIC)芯片,实现了实时视频生成。

这种架构选择保证了在Sohu芯片上的稳定扩展和快速推理,并且以自回归方式生成帧,能够根据游戏输入实时交互。

Sora这类模型根据用户输入的文本内容直出视频,但Oasis使用Diffusion Forcing进行训练,每次只生成一帧,根据游戏输入在token级别调节每个帧,因此可操纵性很高。

之所以能够被称为「世界模型」,是因为Oasis已经能够了解复杂的游戏机制,例如理解物体和建筑、照明的物理规律等等。

1

模型理解照明的物理原理

2

放置立方体砖块

两家初创,强强联手

生成式交互体验新纪元这就来了吗?这两家初创公司又是什么来头?

据公开报道,Oasis模型是由Decart和Etched两家初创公司共同推出的。

Decart成立于2023年9月,一直致力于提高AI模型的效率和降低运行成本,提供更快、更可靠的训练以及实时推理,成立三个月后便与一家GPU云服务商达成了数百万美元的交易。

红杉资本更是豪掷2100万美金对其进行了投资,合伙人Shaun Maguire更是大力称赞Decart的团队,认为他们是「超精英的AI工程师」、「合作过的技术最有天赋的团队之一」,正在将生成式体验推向极致。

游戏体验并不理想

但是Oasis的画面质量令人失望,其分辨率仅为360p,帧率更是低至20FPS,甚至不及任天堂64时代的游戏。不过,如果在Etched打造的Sohu芯片上运行 100B+参数的优化模型,就能达到4K级别的实时渲染,并发用户数量也将提升超过10x。

更为严重的是,该AI模型存在显著的幻觉问题,导致游戏体验极不稳定。玩家无法进行复杂操作,甚至在简单的挖掘动作中,常常会被意外传送回地面。此外,游戏环境中的物体缺乏持久性,玩家的建造成果无法保存。

尽管Oasis宣称将开源代码,但外界对其侵权行为表示质疑。该项目使用了 OpenAI的Minecraft VPT数据集进行训练,包含7万小时的在线视频数据,其中大部分来自《我的世界》。这一点引发了对模型原创性的关注。

虽然许多AI爱好者认为,将AI技术应用于经典游戏如《反恐精英:全球攻势》和《毁灭战士》是游戏领域的进步,但对于大多数玩家而言,真正的游戏引擎和硬件设备依然是最可靠、高效的游戏体验方式。AI生成的游戏虽然能模仿现有游戏的元素,但缺乏深度与原创性。

Oasis的推出再次凸显了AI技术在游戏领域面临的挑战。尽管AI可以生成一些简单的游戏元素,但要创造出真正复杂、原创的游戏,仍然需要人类的创意和技术。

结语

总的来说,Decart AI推出的Oasis模型具有实时生成与交互、架构优势、创新训练方法等特点,为游戏领域带来了全新的体验。虽然目前画面质量和用户体验还有待提升,但其市场前景广阔,有望在未来的游戏开发中发挥重要作用。让我们拭目以待,看看视频生成模型领域接下来还会带给我们哪些惊喜与突破。(文/宋雨涵)