当地时间2025 年 3 月 18 日, NVIDIA 发布了开源推理软件 NVIDIA Dynamo,旨在以高效率、低成本加速并扩展 AI 工厂中的 AI 推理模型。
高效地编排和协调大量 GPU 上的 AI 推理请求,对确保 AI 工厂实现运行成本最小化、token 收益最大化来说至关重要。
随着 AI 推理逐渐变为主流,AI 模型在处理每个提示时都会生成数以万计的 token 用于“思考”。提高推理性能的同时不断降低推理成本,可加速服务提供商的增长并增加收入机会。
作为 NVIDIA Triton 推理服务器的后续产品,NVIDIA Dynamo 是一款全新的 AI 推理服务软件,旨在为部署推理 AI 模型的 AI 工厂最大化其 token 收益。它协调并加速数千个 GPU 之间的推理通信,并使用分离服务将大语言模型 (LLM) 的处理阶段和生成阶段在不同 GPU 上分离开来。这使得每个阶段的特定需求可以进行单独优化,并确保更大程度地利用 GPU 资源。
“全世界各行业都在训练 AI 模型以不同的方式进行思考和学习,从而使模型复杂度持续升级。”NVIDIA 创始人兼首席执行官黄仁勋表示,“为了实现自定义推理 AI 的未来,NVIDIA Dynamo 可以在这些模型上进行规模化部署,从而为 AI 工厂实现降本增效”。
在 GPU 数量相同的情况下,Dynamo 可将 NVIDIA Hopper 平台上运行 Llama 模型的 AI 工厂性能和收益翻倍。在由 GB200 NVL72 机架组成的大型集群上运行 DeepSeek-R1 模型时,NVIDIA Dynamo 的智能推理优化也可将每个 GPU 生成的 token 数量提高 30 倍以上。
为了提升这些推理性能,NVIDIA Dynamo 加入了一些功能,使其能够提高吞吐量的同时降低成本。它可以根据不断变化的请求数量和类型,动态添加、移除和重新分配 GPU,并精确定位大型集群中的特定 GPU,从而更大限度地减少响应计算和路由查询。此外,它还可以将推理数据卸载到成本更低的显存和存储设备上,并在需要时快速检索这些数据,最大程度地降低推理成本。
NVIDIA Dynamo 完全开源并支持 PyTorch、SGLang、NVIDIA TensorRT-LLM 和 vLLM,使企业、初创公司和研究人员能够开发和优化在分离推理时部署 AI 模型的方法。这将使用户加速采用 AI 推理,包括亚马逊云科技、Cohere、CoreWeave、戴尔科技、Fireworks、谷歌云、Lambda、Meta、微软 Azure、Nebius、NetApp、OCI、Perplexity、Together AI 和 VAST。
推理性能提升
NVIDIA Dynamo 可将推理系统在处理过往请求时于显存中保存的知识(称为 KV 缓存),映射到潜在的数千个 GPU 中。
然后,它会将新的推理请求路由到与所需信息匹配度最高的 GPU 上,从而避免昂贵的重新计算,并释放 GPU 来响应新的请求。
Perplexity AI 首席技术官 Denis Yarats 表示:“为了处理每月数以亿计的请求,我们依靠 NVIDIA GPU 及推理软件来提供业务和用户所需的性能、可靠性和拓展性。我们期待通过 NVIDIA Dynamo 及其增强的分布式服务能力,进一步提高推理服务效率,满足全新 AI 推理模型的计算需求。”
代理式 AI
AI 提供商 Cohere 计划使用 NVIDIA Dynamo 为其 Command 系列模型中的代理式 AI 功能提供支持。
Cohere 工程部门高级副总裁 Saurabh Baji 表示:“扩展先进的 AI 模型需要复杂的多 GPU 调度、无缝协调和低延迟通信库,以便在显存和存储中无缝传输推理上下文。我们期待 NVIDIA Dynamo 能帮助我们为企业客户提供卓越的用户体验。”
分离服务
NVIDIA Dynamo 推理平台还支持分离服务,将 LLM 的不同计算阶段(包括建立对用户查询的理解,然后生成最佳响应)分配给不同的 GPU。这种方法非常适合推理模型,例如全新的 NVIDIA Llama Nemotron 模型系列,它们使用高级推理技术来改进上下文理解和响应生成。分离服务使得每个阶段可以进行单独的微调和资源调配,从而提高吞吐量并更快地响应用户。
Together AI (AI Acceleration Cloud) 正在寻求将其专有的 Together Inference Engine 与 NVIDIA Dynamo 集成,以便推理工作负载实现跨 GPU 节点的无缝扩展。这也让 Together AI 能够动态地解决模型管线各个阶段的流量瓶颈。
Together AI 首席技术官 Ce Zhang 表示:“经济高效地扩展推理模型需要新的先进推理技术,包括分离服务和上下文感知路由。借助我们专有的推理引擎,Together AI 可提供行业领先的性能。NVIDIA Dynamo 的开放性和模块化使我们能够将其组件无缝嵌入引擎,以满足更多请求,同时优化资源利用率,从而最大化我们在加速计算方面的投资。我们很高兴能够利用该平台的突破性功能,经济高效地为用户提供开源推理模型。”
NVIDIA Dynamo 组成结构
NVIDIA Dynamo 包含四项关键创新,可降低推理服务成本并改善用户体验:
•GPU 规划器 (GPU Planner):一种规划引擎,可动态地添加和移除 GPU,以适应不断变化的用户需求,从而避免 GPU 配置过度或不足。
•智能路由器 (Smart Router):一个具备大语言模型 (LLM) 感知能力的路由器,它可以在大型 GPU 集群中引导请求的流向,从而最大程度减少因重复或重叠请求而导致的代价高昂的 GPU 重复计算,释放出 GPU 资源以响应新的请求。
•低延迟通信库 (Low-Latency Communication Library):推理优化库,支持先进的 GPU 到 GPU 通信,并简化异构设备之间的复杂数据交换,从而加速数据传输。
•显存管理器 (Memory Manager):一种可在不影响用户体验的情况下,以智能的方式在低成本显存和存储设备上卸载及重新加载推理数据的引擎。
NVIDIA Dynamo 将作为 NVIDIA NIM 微服务推出,并在未来版本中由 NVIDIA AI Enterprise 软件平台提供支持,具有生产级的安全性、支持和稳定性。