英伟达的企业参考架构(ERAs)是构建以人工智能工作负载为重点的数据中心的蓝图,正如英伟达所说,是为了“制造智能”。企业参考架构有助于英伟达的系统合作伙伴,以及联合客户打造他们自己的AI工厂。企业参考架构提供了全栈硬件和软件方面的建议,其中硬件方面涵盖服务器、集群和网络。
英伟达企业平台副总裁兼总经理鲍勃·佩特在一篇英伟达博客中称,每份企业参考架构都涵盖以下内容:
– 英伟达认证的服务器配置,其特色在于配备了英伟达的图形处理器(GPUs)、中央处理器(CPUs)和网络技术,可实现大规模的性能输出。
– 采用英伟达的Spectrum – X人工智能以太网和BlueField – 3数据处理单元(DPUs)进行人工智能优化的网络,以满足不同工作负载和规模的要求。
– 用于生产人工智能的英伟达AI企业软件基础,其中包括人工智能应用程序NeMo和NIM微服务,以及用于基础设施配置、工作负载管理和资源监测的基础命令管理器要点(Base Command Manager Essentials)。 企业参考架构系统可从英伟达的合作伙伴处获取,这些合作伙伴包括思科、戴尔、HPE、联想和超微等,有23家经过认证的数据中心合作伙伴,并且在英伟达的产品目录中列出了577种系统。 经认证的服务器分为计算型、通用型和高密度虚拟桌面基础设施(VDI)等类别,其中计算型服务器适用于企业参考架构,因为它们可用于人工智能训练、推理、数据分析和高性能计算(HPC)等方面。
在企业参考架构这一层级,并未着重关注存储方面,尽管为了让英伟达的图形处理器保持忙碌状态存储是必需的,因为英伟达本身并不提供存储设备。相反,存储硬件和软件由英伟达认证的服务器合作伙伴负责,他们使用的存储设备具备与英伟达图形处理器的集成功能,通常包括支持GPUDirect,可实现图形处理器服务器到存储驱动器的远程直接内存访问(RDMA)数据传输。
例如,惠普企业私有云人工智能的人工智能基础设施堆栈包括基于运行VAST Data软件的Alletra MP全闪存储计算节点的文件存储GreenLake。该软件已获得英伟达超级集群(SuperPOD)认证。惠普企业的私有云人工智能本身已获得英伟达基础集群(BasePOD)认证和OVX存储验证。