空间智能的续集来了!“AI教母”李飞飞创业归来,AI靠单图生成3D世界,生成式AI进入3D化沉浸式新时代

引言

【算力豹导读】此前宝可梦GO团队宣布,他们已经构建出了一个具有革命性的大规模地理空间模型(LGM),这一模型的参数规模超过150万亿,这一成果不仅实现了李飞飞提出的“空间智能”概念,而且意味着计算机将能够以类似人类的方式理解空间,为AR眼镜、机器人、内容创建和自主系统等领域带来全新突破。

而就在昨天,“AI教母”李飞飞终于是坐不住了

“无论怎样理论化,我们还是很难用语言来描述与照片或句子生成的3D场景交互的体验,”李飞飞说道。

北京时间12月3日凌晨,著名 AI 学者、斯坦福大学教授李飞飞公布了她的第一个创业项目。这是一个能用单张图片、一句话生成3D世界的神奇项目。

生成式AI,从此进入了3D化、完全沉浸式的新时代。

只用一张图生成的3D世界会有多精细?World Labs表示,效果是这样的:

空间智能的发展史

理论基础:李飞飞的空间智能发展基于对人类空间智能的深入理解。空间智能是指一个人准确感受视觉空间并将所见形象表现出来的能力,包括以三维空间的方式来思考、知觉外在和内在的影像,并能重现这些影像。

理论阐述:李飞飞在斯坦福大学任教期间,就开始了对空间智能的研究,并在多次演讲中详细解读了这一概念。她认为空间智能的核心在于教会计算机如何看、学习和行动,并不断学习如何更好地看和行动。

首次面向大众:在2024年的TED演讲中,李飞飞详细讲解了“空间智能”的概念。她用一张简单的图片“一只猫将玻璃杯推到桌子边缘”向大家阐述了人类大脑如何瞬间处理物体的形状、位置、与周围环境的关系,并预测接下来可能发生的事件。这种复杂的空间推理能力,是目前人工智能所无法完全具备的。

她深入研究如何让AI不仅能看到,还能真正理解物体在空间中的位置及其与周围环境的关系,从而推动机器人、虚拟现实以及其他需要空间理解的系统进化,这就是她“空间智能”研究的起点。

此前一周宝可梦GO团队打造的全球最强3D地图——LGM:以其庞大的神经网络与参数规模、高精度的3D视觉地图以及全球范围内的知识互通与共享等特点,开启了空间智能的新篇章。

就在昨天,李飞飞空间智能首个项目突然发布:仅凭借1张图,就能生成一个3D游戏世界的AI系统!

生成的3D世界具有交互性

能够像玩游戏那样,自由地移动相机来探索这个3D世界,浅景深、希区柯克变焦等操作均可行。

随便输入一张图:除了这张图本体,可探索的3D世界里,所有东西都是AI生成的:

与生成式AI工具生成的图片或视频等2D内容不同,以3D形式生成的内容具有更好的控制性和一致性。而且,该模型还可以适应各种场景类型和艺术风格,比如生成不同的相机效果、3D效果以及经典绘画风格的3D内容。

这将改变我们制作电影、游戏、模拟器和其他物理世界数字表现形式的方式。

技术意义与应用前景

技术意义:该成果展示了「空间智能」在AI领域的重要应用,推动了计算机视觉和实体智能体的发展。实现了从2D到3D的跨越,为电影、游戏、模拟器等物理世界的数字表现形式带来了翻天覆地的变化。

应用前景:目标客户包括视频游戏开发商和电影制片厂,有望降低开发成本,帮助工作室实现更大胆的创意冒险。对艺术家、设计师、开发人员、电影制作人和工程师等专业人士有用的工具,可以与其他AI工具自然地结合,创造新的工作流体验。

多模态语言模型和空间智能的区别

知名华裔计算机科学家、人工智能专家李飞飞和计算机视觉领域的知名学者Justin Johnson共同接受了a16z的专访。

在受访中,李飞飞表示,计算能力、数据理解和算法的进步为空间智能的发展奠定了基础。相对于语言模型而言,空间智能更侧重于机器对物理世界的感知、推理和交互能力,它是人工智能发展的必然趋势。

当前语言模型,特别是多模态模型,底层表示均为一维。上下文长度、Transformer架构、序列处理及注意力机制均体现一维表示。这些模型基于一维标记序列运作。语言的一维表示自然,因文字为字母构成的一维序列。多模态模型将其他模态信息融入一维表示。但空间智能领域需三维表征为核心。

算法层面,这提供了新数据处理、输出类型及问题解决途径。多模态模型处理图像时,未包含基本三维表示。李飞飞认为,一维与三维表示的根本差异是关键。语言为生成信号,模型可概括性输出数据。而3D世界遵循物理定律,结构复杂。3D信息处理与语言处理截然不同,虽借鉴语言模型想法,但为全新哲学议题。

主持人问,一维语言是否为物理世界的糟糕表征,因人类生成且可能信息损失。基于像素的模型处理2D图像和视频,观看视频可感知3D世界。空间智能与2D处理有何不同?

Justin区分底层表示和面向用户的可供性。感知二维图像,视网膜为二维结构,但表示方式影响可供性。大脑将二维视为三维投影,执行操作如移动物体或相机。可用二维表示和模型实现,但与任务不完全匹配。对三维世界的二维投影建模可能,但非核心。三维表示置于模型核心,表示类型与任务类型更匹配,提供更自然的可供性。

李飞飞强调空间智能重要性。智能的弧线指向可供性,进化使动物和人类能在世界移动、互动、创造。原生的三维性对释放应用洪流至关重要,即使表现形式二维,本质三维。

结语

李飞飞首个「空间智能」模型的发布标志着AI在3D世界生成和交互性方面取得了重要突破。这一成果不仅具有技术意义,还展示了广阔的应用前景和无限的可能性。

此外World Labs表示,他们正在努力改进生成的3D世界的大小和逼真度,并尝试与用户互动的新方法。未来,随着「空间智能」的加速进步,一个新时代正在我们眼前展开,这将催化机器人学习等具身智能系统的发展。(文/宋雨涵)