1 月6日,在美国拉斯维加斯举行的CES上,NVIDIA 创始人兼首席执行官黄仁勋语出惊人:机器人技术的 ChatGPT 时刻即将到来。
这里说的所谓“机器人技术的 ChatGPT 时刻”指的是“生成式世界基础模型(World Foundation Model ,WFM)”,为此 ,NVIDIA发布了Cosmos 模型,一个由先进的生成式世界基础模型、高级 tokenizer、护栏和加速视频处理管线组成物理 AI模型。
与ChatGPT自然语言处理模型不同,Cosmos WFM模型转为基于物理交互的高质量生成模拟工业、驾驶环境而建,它可以根据文本、图像和视频等输入组合、根据机器人传感器或运动数据生成符合物理学定律的视频,如仿真工业环境(例如仓库或工厂)和驾驶环境(包括各种路况)等。
据了解,如果要构建一个物理 AI 模型,通常需要数 PB(petabytes)视频数据,需要花费数万小时计算来处理、整理和标记这些数据。Cosmos借助Tokenize r、NeMo和CUDA加速数据处理管线等一系列功能,降低物理 AI 模型的建设门槛。其中,先进的可视化 tokenizer,可将图像和视频转换成 token。与当前领先的 tokenizer 相比,其总压缩率提高了 8 倍,处理速度提高了 12 倍;而NeMo 框架用于高效模型训练、定制和优化;加速数据处理管线,使开发者能够使用 NVIDIA Blackwell 平台在 14 天内处理、整理和标记 2000 万小时的视频。
在 CES 主题演讲中,NVIDIA 创始人兼首席执行官黄仁勋展示了物理AI开发者如何使用 Cosmos模型,包括用于:
●视频搜索和理解:使开发者能够从视频数据中轻松找到特定的训练场景,例如雪天路况或仓库拥堵等。
●基于物理学的逼真合成数据生成:使用 Cosmos 模型从NVIDIA Omniverse™ 平台上开发的可控 3D 场景中生成逼真视频。
●物理 AI 模型开发和评估:在基础模型上构建自定义模型,使用 Cosmos 进行强化学习以改进模型,或者测试模型在特定仿真场景中的表现。
●预测与“多元宇宙”模拟:使用 Cosmos 和 Omniverse 生成 AI 模型所有未来可能实现的结果,以便帮助其选择最佳和最准确的路径。
目前Cosmos 的首批用户包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot,、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和小鹏汽车等领先机器人和汽车公司以及共享出行巨头 Uber等。NVDIA将以开放模型许可证的方式提供Cosmos 模型,开发者可以在 NVIDIA API 目录中预览首批模型,也可以从 NVIDIA NGC 目录或 Hugging Face 下载整个系列的模型和微调框架。