【深度观察】Decart AI推出Oasis模型：能交互、可玩的Sora，视频生成模型或将进军游戏圈？-DOIT-数据产业媒体与服务平台

引言

【算力豹导读】2024年11月3日，两家初创公司Decart和Etched宣布，他们打造了一款世界上首个实时、可玩、可交互的世界模型——Oasis。

Oasis经过了数百万小时游戏视频的训练，仅接收用户的键盘输入即可实时生成开放世界游戏，但其中并不包含任何游戏引擎，只有一个AI基座模型。

然而，这款AI生成的“游戏”却引发了广泛的批评和争议。

Oasis的画面质量令人失望，其分辨率仅为360p，帧率更是低至20FPS，甚至不及任天堂64时代的游戏。更为严重的是，该AI模型存在显著的幻觉问题，导致游戏体验极不稳定。玩家无法进行复杂操作，甚至在简单的挖掘动作中，常常会被意外传送回地面。此外，游戏环境中的物体缺乏持久性，玩家的建造成果无法保存。

Oasis是如何炼成的

之前谷歌推出的GameNGen本质上仍是一个由AI驱动的游戏引擎，但Oasis的底层机制并不是游戏引擎，而是单一的视频生成模型，相当于一个能交互、可玩的Sora。

那么，Oasis究竟是如何做到的?

根据博客介绍，技术团队进行了数百次架构和数据实验，以确定用于快速生成自回归交互式视频的最佳架构。

Oasis模型均基于Transformer架构，由基ViT的变分自动编码器（VAE）和基于DiT的潜在扩散主干组成，使用了加速过的轴向、时空和因果注意力机制来克服长序列中的模型发散（divergence）。

Oasis的ViT+DiT架构

VAE就像是工厂里负责整理和识别原材料（游戏里的各种信息）的车间，它基于ViT（Vision Transformer）架构，能够对看到的游戏画面的相关信息进行加工整理。

主干即工厂的核心生产线，基于DiT（Diffusion Transformer）架构，负责将加工处理好的信息产出游戏内容，比如游戏场景、物体等。

同时，利用Decart的推理引擎，结合Etched公司的Sohu（Transformer架构的ASIC）芯片，实现了实时视频生成。

这种架构选择保证了在Sohu芯片上的稳定扩展和快速推理，并且以自回归方式生成帧，能够根据游戏输入实时交互。

Sora这类模型根据用户输入的文本内容直出视频，但Oasis使用Diffusion Forcing进行训练，每次只生成一帧，根据游戏输入在token级别调节每个帧，因此可操纵性很高。

之所以能够被称为「世界模型」，是因为Oasis已经能够了解复杂的游戏机制，例如理解物体和建筑、照明的物理规律等等。

模型理解照明的物理原理

放置立方体砖块

两家初创，强强联手

生成式交互体验新纪元这就来了吗?这两家初创公司又是什么来头?

据公开报道，Oasis模型是由Decart和Etched两家初创公司共同推出的。

Decart成立于2023年9月，一直致力于提高AI模型的效率和降低运行成本，提供更快、更可靠的训练以及实时推理，成立三个月后便与一家GPU云服务商达成了数百万美元的交易。

红杉资本更是豪掷2100万美金对其进行了投资，合伙人Shaun Maguire更是大力称赞Decart的团队，认为他们是「超精英的AI工程师」、「合作过的技术最有天赋的团队之一」，正在将生成式体验推向极致。

游戏体验并不理想

但是Oasis的画面质量令人失望，其分辨率仅为360p，帧率更是低至20FPS，甚至不及任天堂64时代的游戏。不过，如果在Etched打造的Sohu芯片上运行 100B+参数的优化模型，就能达到4K级别的实时渲染，并发用户数量也将提升超过10x。

更为严重的是，该AI模型存在显著的幻觉问题，导致游戏体验极不稳定。玩家无法进行复杂操作，甚至在简单的挖掘动作中，常常会被意外传送回地面。此外，游戏环境中的物体缺乏持久性，玩家的建造成果无法保存。

尽管Oasis宣称将开源代码，但外界对其侵权行为表示质疑。该项目使用了 OpenAI的Minecraft VPT数据集进行训练，包含7万小时的在线视频数据，其中大部分来自《我的世界》。这一点引发了对模型原创性的关注。

虽然许多AI爱好者认为，将AI技术应用于经典游戏如《反恐精英：全球攻势》和《毁灭战士》是游戏领域的进步，但对于大多数玩家而言，真正的游戏引擎和硬件设备依然是最可靠、高效的游戏体验方式。AI生成的游戏虽然能模仿现有游戏的元素，但缺乏深度与原创性。

Oasis的推出再次凸显了AI技术在游戏领域面临的挑战。尽管AI可以生成一些简单的游戏元素，但要创造出真正复杂、原创的游戏，仍然需要人类的创意和技术。

结语

总的来说，Decart AI推出的Oasis模型具有实时生成与交互、架构优势、创新训练方法等特点，为游戏领域带来了全新的体验。虽然目前画面质量和用户体验还有待提升，但其市场前景广阔，有望在未来的游戏开发中发挥重要作用。让我们拭目以待，看看视频生成模型领域接下来还会带给我们哪些惊喜与突破。（文/宋雨涵）

【深度观察】Decart AI推出Oasis模型：能交互、可玩的Sora，视频生成模型或将进军游戏圈？

lixiangjing

相关推荐

近期文章

热门标签