引言
【算力豹导读】宝可梦GO团队近日宣布,他们已经构建出了一个具有革命性的大规模地理空间模型(LGM),这一模型的参数规模超过150万亿,标志着人类在空间计算和AR眼镜领域即将迈入一个崭新的时代。
这一成果不仅实现了李飞飞提出的“空间智能”概念,而且意味着计算机将能够以类似人类的方式理解空间,为AR眼镜、机器人、内容创建和自主系统等领域带来全新突破。
作为Niantic视觉定位系统(VPS)的一部分,团队训练了超过5000万个神经网络,参数规模超过150万亿。
我们可以把LGM想象成一张为计算机准备的超级智能地图,不过,它却能以与人类类似的方式理解空间。
凭借这种对世界的强大3D理解能力,LGM能够非常智能地「填补空白」,甚至包括那些地球上人类尚未全面扫描的领域!
可以说是,让AI终于长出了眼睛
从此,LGM将使计算机不仅能感知和理解空间,还能以新的方式与之互动,这就意味着AR眼镜和机器人、内容创建、自主系统等领域将迎来全新的突破。
随着我们从手机转向与现实世界相连的可穿戴技术,空间智能,将成为未来世界的操作系统!
李飞飞首提空间智能
在2024年的TED演讲中,李飞飞详细讲解了“空间智能”的概念。她用一张简单的图片“一只猫将玻璃杯推到桌子边缘”向大家阐述了人类大脑如何瞬间处理物体的形状、位置、与周围环境的关系,并预测接下来可能发生的事件。这种复杂的空间推理能力,是目前人工智能所无法完全具备的。
传统AI系统能够处理静态图像,但对于如机器人和自动化系统等需要理解动态环境、执行空间交互的任务,现有的AI表现仍然不足。正如李飞飞所指出的,“虽然计算机视觉技术已经非常强大,但在面对三维现实环境的认知与交互时,我们的AI系统仍远不如人类灵活。”
因此,她深入研究如何让AI不仅能看到,还能真正理解物体在空间中的位置及其与周围环境的关系,从而推动机器人、虚拟现实以及其他需要空间理解的系统进化,这就是她“空间智能”研究的起点。
空间智能的核心技术
多模态感知与推理
多模态感知是空间智能的基础,它不仅依赖计算机视觉,还结合了语言理解、语音处理和物理模拟等多种技术。李飞飞团队的“Visual Genome”项目,通过大规模语义网络,将视觉信息与语言描述关联起来。这种关联性让AI在看图识物的基础上,能够理解图像中物体的复杂关系。这不仅提升了AI的认知水平,也为机器人等实际应用打下了技术基础。
动态三维环境的强化学习
为了训练AI具备与物理世界互动的能力,李飞飞的团队在研究中大力推进强化学习(Reinforcement Learning, RL)技术的应用。尤其是在动态三维环境中的应用,该技术的核心在于通过虚拟物理环境,让AI不断试错和学习。通过这种方式,AI能够从与环境的互动中自我优化其行为策略。这项技术应用于多个领域,如机器人导航、自动驾驶等。
大规模物理场景建模
李飞飞的团队还在探索如何通过大规模物理建模,使AI能够实时推理和预测物体的物理属性与运动轨迹。物理场景的建模不仅帮助AI更好地理解空间中的物体动态,也大大扩展了其应用领域。在智能交通系统中,这一技术已经展现出了巨大的潜力,尤其是在无人驾驶汽车对交通环境的实时感知和预测中,物理建模系统让车辆能够预判其他车辆的运动行为,做出更安全的决策。
LGM让全球数百万个场景,通过AI相连
这个大规模地理空间模型的概念,是利用大规模机器学习理解场景,然后它就会与全球数百万个其他场景相连。
你是否曾有这样的感觉?
看到一种熟悉的建筑,比如教堂、雕像或城镇广场,我们很容易想象它从其他角度看起来是什么样子,即使这些角度我们从未见过。
这,就是我们人类独有的「空间理解」功能,它意味着,我们可以根据以前遇到的无数相似场景来填补这些细节。
但这种能力对于机器来说,却是难如登天。
即使当今最先进的AI模型,也难以推断出场景中缺失的部分、将其可视化,或者想象出一个地方从全新的角度看起来是什么样子。
如今,LGM打破了AI的这种限制!
这套由宝可梦GO团队训练出的神经网络,可以在超过100万个地点进行操作。
每个本地网络,都会为全球大模型做出贡献,实现对地理位置的贡献理解,包括那些尚未扫描的地方。
训练超过5000万个神经网络
作为Niantic视觉定位系统(VPS)的核心部分,LGM通过训练超过5000万个神经网络,能够智能地“填补空白”,包括那些地球上人类尚未全面扫描的领域。这一超级智能地图不仅能够感知和理解空间,还能以新的方式与之互动,预示着空间智能将成为未来世界的操作系统。
LGM的构建基于数十亿张全球各地的图像,这些图像锚定在地球上的精确位置,并被提炼成一个大模型,使计算机能够基于位置去理解空间、结构和物理交互。这一模型的突破在于它捕捉的是根植于特定地理位置、并且具有度量特性的3D实体,实现了一种地理空间智能,让模型从其先前的观察中学习,然后还能将知识转移到新的位置,即使这些位置只是被部分观察到的。
Niantic团队花费了五年时间构建视觉定位系统VPS,该系统能够利用手机上的单张图像,让用户在游戏和Scaniverse中有趣的地点构建3D地图,从而确定其位置和方向。VPS的构建依赖于用户扫描,全球范围内拥有1000万个扫描地点,其中超过100万个已激活,可供VPS使用。团队每周还在接收约100万次新的扫描,每次扫描都包含数百张独立的图像。
LGM的实现,不仅仅是一个简单的定位模型,它将丰富的几何、外观和文化信息编码到场景级特征中,这些特征将启用场景表示、操控和创造的新方式。未来的智能体系统将不再是孤立的存在,不同类型的基础模型将相互补充,共同工作以理解世界。随着AR眼镜等可穿戴设备变得更加普及,我们正迈向一个由物理和数字现实无缝融合的未来。LGM代表着AI进化的又一个里程碑,将在空间规划与设计、物流、受众参与和远程协作等方面有广泛的应用。
结语
宝可梦GO团队打造的全球最强3D地图——LGM,以其庞大的神经网络与参数规模、高精度的3D视觉地图以及全球范围内的知识互通与共享等特点,开启了空间智能的新篇章。它将为AR技术、游戏领域、城市规划与物流管理以及公共安全等领域带来革命性的变革。然而,在享受LGM带来的便利和创新的同时,我们也需要关注其隐私和数据安全问题,并采取有效的措施加以保护。(文/宋雨涵)