自动驾驶汽车、机器人技术的 ChatGPT 时刻，已经到来-DOIT-数据产业媒体与服务平台

1 月6日，在美国拉斯维加斯举行的CES上，NVIDIA 创始人兼首席执行官黄仁勋语出惊人：机器人技术的 ChatGPT 时刻即将到来。

这里说的所谓“机器人技术的 ChatGPT 时刻”指的是“生成式世界基础模型(World Foundation Model ，WFM)”，为此，NVIDIA发布了Cosmos 模型，一个由先进的生成式世界基础模型、高级 tokenizer、护栏和加速视频处理管线组成物理 AI模型。

与ChatGPT自然语言处理模型不同，Cosmos WFM模型转为基于物理交互的高质量生成模拟工业、驾驶环境而建，它可以根据文本、图像和视频等输入组合、根据机器人传感器或运动数据生成符合物理学定律的视频，如仿真工业环境(例如仓库或工厂)和驾驶环境(包括各种路况)等。

据了解，如果要构建一个物理 AI 模型，通常需要数 PB(petabytes)视频数据，需要花费数万小时计算来处理、整理和标记这些数据。Cosmos借助Tokenize r、NeMo和CUDA加速数据处理管线等一系列功能，降低物理 AI 模型的建设门槛。其中，先进的可视化 tokenizer，可将图像和视频转换成 token。与当前领先的 tokenizer 相比，其总压缩率提高了 8 倍，处理速度提高了 12 倍;而NeMo 框架用于高效模型训练、定制和优化;加速数据处理管线，使开发者能够使用 NVIDIA Blackwell 平台在 14 天内处理、整理和标记 2000 万小时的视频。

在 CES 主题演讲中，NVIDIA 创始人兼首席执行官黄仁勋展示了物理AI开发者如何使用 Cosmos模型，包括用于：

●视频搜索和理解：使开发者能够从视频数据中轻松找到特定的训练场景，例如雪天路况或仓库拥堵等。

●基于物理学的逼真合成数据生成：使用 Cosmos 模型从NVIDIA Omniverse™ 平台上开发的可控 3D 场景中生成逼真视频。

●物理 AI 模型开发和评估：在基础模型上构建自定义模型，使用 Cosmos 进行强化学习以改进模型，或者测试模型在特定仿真场景中的表现。

●预测与“多元宇宙”模拟：使用 Cosmos 和 Omniverse 生成 AI 模型所有未来可能实现的结果，以便帮助其选择最佳和最准确的路径。

目前Cosmos 的首批用户包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot,、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和小鹏汽车等领先机器人和汽车公司以及共享出行巨头 Uber等。NVDIA将以开放模型许可证的方式提供Cosmos 模型，开发者可以在 NVIDIA API 目录中预览首批模型，也可以从 NVIDIA NGC 目录或 Hugging Face 下载整个系列的模型和微调框架。

自动驾驶汽车、机器人技术的 ChatGPT 时刻，已经到来

songjy

相关推荐

近期文章

热门标签