NVIDIA 发布 Triton推理服务器重大更新

 2021 年 11 月 9 日,英伟达宣布其AI推理平台的重大更新,目前Capital One、Microsoft、Samsung Medison、Siemens Energy、Snap等25000多家客户都在使用该平台。

这些更新包括开源NVIDIA Triton推理服务器软件的新功能,该软件为所有AI模型和框架提供跨平台推理; 同时也包含对NVIDIA TensorRT的更新,该软件优化AI模型并为NVIDIA GPU上的高性能推理提供运行时优化。

NVIDIA还推出了NVIDIA A2 Tensor Core GPU,这是一款用于边缘AI推理的低功耗、小尺寸的加速器,其推理性能比CPU高出20倍。

NVIDIA副总裁兼加速计算总经理Ian Buck表示:”NVIDIA AI推理平台正在推动各行各业的突破,包括医疗健康、金融服务、零售、制造和超级计算。无论是提供更智能的建议,发挥对话式AI的力量,还是推进科学发现,NVIDIA推理平台都能以简单易用的方式提供低延迟、高吞吐及多种性能组合的服务,为全球关键的AI新应用赋能。”

关键的软件优化

Triton 推理服务器的主要更新包括:

●        Triton 模型分析器 – 这款新工具可以自动化地从数百种组合中为 AI 模型选择最佳配置,以实现最优性能,同时确保应用程序所需的服务质量。

●        多 GPU 多节点功能 – 这一新功能支持基于Transformer的大规模语言模型,例如 Megatron 530B,在多个GPU和服务器节点上运行并提供实时推理性能,而不是在单个GPU上运行。

●        RAPIDS FIL – 这一针对随机森林和梯度提升决策树模型 GPU 或 CPU 推理的新后端为开发者使用 Triton 进行深度学习和传统机器学习提供了一个统一的部署引擎。

●        Amazon SageMaker 集成 – 这种无缝集成让客户能够在 SageMaker(AWS 完全托管的 AI 服务)中使用 Triton 轻松部署多框架的模型,并实现高推理性能。

●      支持 Arm CPU – 除了 NVIDIA GPU 和 x86 CPU 外,Triton 后端现在还支持在 Arm CPU 上优化 AI 推理工作负载。

Triton 支持在云、数据中心、企业边缘和嵌入式设备等环境中对 GPU 和 CPU 进行 AI 推理,并与 AWS、Google Cloud、Microsoft Azure、阿里云PAI-EAS 等平台集成。此外,NVIDIA AI Enterprise 也集成了 Triton。

NVIDIA AI Enterprise 是一款经 NVIDIA 优化、认证和支持的用于开发和部署 AI 的端到端软件套件,客户可利用它在本地数据中心和私有云的 主流服务器上运行 AI 工作负载。

除了 Triton 外,TensorRT 现在还与TensorFlow和PyTorch集成,只需一行代码就能提供比框架内推理快3倍的性能。这使得开发人员采用极为简化的工作流程就可以体会TensorRT的强大功能。

NVIDIA TensorRT 8.2 是SDK的最新版本,可加速高性能的深度学习推理,在云端、本地或边缘提供高吞吐和低延迟。有了最新的性能优化,数十亿个参数的语言模型可实现实时运行。

行业领导者支持 NVIDIA AI 平台推理

全球众多行业领导者都正在使用 NVIDIA AI 推理平台改进业务运营并为客户提供新的AI赋能服务。

Microsoft Azure 认知服务为高品质 AI 模型提供基于云的 API,以创建智能应用程序。他们正在使用Triton 运行语音转文本模型,为 Microsoft Teams 用户提供准确的实时字幕和转录。

“Microsoft Teams 是全球沟通和协作的重要工具,每月有近 2.5 亿活跃用户,”Microsoft 团队呼叫、会议和设备部首席 PM 经理 Shalendra Chhabra 表示。“这样的 AI 模型极其复杂,需要数千万个神经网络参数才能在几十种不同的语言中提供准确的结果。模型越大,就越难以经济高效地实时运行。Microsoft Azure 认知服务上的 NVIDIA GPU 和 Triton 推理服务器使用 28 种语言和方言,通过 AI 近乎实时地帮助改进实时字幕和转录功能。”Microsoft Azure 认知服务上的 NVIDIA GPU 和 Triton 推理服务器,结合AI模型,帮助提升了涉及28 种语言和方言的实时字幕和转录功能的成本效益。

Samsung Medison 是三星电子旗下一家全球医疗设备公司。该公司正利用  NVIDIA TensorRT 通过智能辅助功能来为其超声波系统提供增强的更优质的医疗影像。Samsung Medison 致力于通过提高患者的舒适度、减少扫描时间、简化工作流程并最终提高系统吞吐量来改善患者和医疗健康领域专业人员的生活。

“在新款 V8 高端超声波系统中应用 NVIDIA TensorRT 后,我们能够在查看和诊断图像时更好地为医学专家提供支持,”Samsung Medison 副总裁、客户体验团队主管 Won-Chul Bang 表示。“我们正在积极地将基于 AI 的技术引入我们的超声波系统,以便为医疗专业人员提供更好的支持,使他们能够专注于患者诊断和治疗等更重要的领域。”

Siemens Energy是一家拥有领先能源技术解决方案的能源专营公司,该公司正利用 Triton 通过 AI 来帮助其发电厂客户管理相关设施。

“高度复杂的发电厂通常会配备摄像头和传感器,但采用的却是传统软件系统,NVIDIA Triton 推理服务器出色的灵活性能够让这些发电厂加入自主工业革命,” Siemens Energy自主运营部投资组合经理 Arik Ott 表示。

Snap是一家全球性摄影软件和社交媒体公司,其主要产品和服务包括Snapchat、Spectacles和Bitmoji等。Snap正在使用NVIDIA技术来提高商业变现能力和降低成本。

“Snap使用NVIDIA GPU和TensorRT将机器学习推理的成本效率提高了50%,并将服务延迟降低了2倍,“Snap公司策划与商业变现部门工程副总裁Nima Khajehnouri表示。”这为我们提供了计算资源,以实践和部署更大型、更准确的广告和内容排名模型。”

NVIDIA面向推理的 AI 平台包括了新的 NVIDIA 认证系统,全新A2 GPU

NVIDIA 认证系统可以帮助客户在高性能、经济高效且可扩展的基础设施上为各种现代 AI 应用识别、获取和部署系统,该认证系统现在包含两个新的边缘AI类别。

扩展的类别允许 NVIDIA 系统的合作伙伴为客户提供完整系列的由基于 NVIDIA Ampere 架构的 GPU 支持的 NVIDIA 认证系统,来处理各种实际工作负载。新的 NVIDIA A2 GPU 也包含在内,它是一个入门级、低功耗的紧凑型加速器,适用于边缘服务器中的推理和边缘 AI。 NVIDIA A2与适用于主流企业服务器的 NVIDIA A30 、适用高性能 AI 服务器的 NVIDIA A100 一起,为边缘、数据中心和云端的 AI 推理提供了完整的方案。

Atos、戴尔科技、技嘉、慧与、浪潮、联想和 Supermicro 等全球领先的企业系统供应商,其AI系统产品线均支持在 NVIDIA 认证系统上使用NVIDIA AI Enterprise。

其他系统提供商,如研华科技、ASRock Rack、华硕、宁畅、新华三 和 QCT 也为各种工作负载提供了 NVIDIA 认证系统。包括 研华科技、技嘉和联想在内的领先供应商将很快推出首款通过新边缘类别认证的 NVIDIA 认证系统。

供货情况

Triton 通过 NVIDIA NGC 目录提供。NVIDIA NGC是针对 GPU 优化的 AI 软件中心,包括框架、工具包、预训练模型和 Jupyter Notebooks。Triton源代码可从 Triton GitHub 资源库获取。

NVIDIA 开发者计划成员可通过 TensorRT 页面获取 TensorRT。最新版本的插件、解析器和示例也以开源形式提供,可从 TensorRT GitHub 资源库获取。

客户可以通过今日独家发布的 NVIDIA LaunchPad中的全球精选实验室,在 NVIDIA AI Enterprise 软件套件中体验 NVIDIA Triton。

NVIDIA AI Enterprise 软件套件可通过全球 NVIDIA 渠道合作伙伴获取,包括 Atea、Axians、Carahsoft Technology Corp.、Computacenter、Insight Enterprises、Presidio、Sirius、SoftServe、SVA System Vertrieb Alexander GmbH、TD SYNNEX、Trace3 和 WWT。