2021年11月17日,亚马逊云宣布Amazon Elastic Compute Cloud (Amazon EC2) DL1实例正式可用,这是一种专为训练机器学习模型而设计的新实例类型。
Amazon EC2 DL1实例由来自Habana Labs 的Gaudi加速器提供支持,与当前基于GPU的Amazon EC2实例相比,其机器学习模型训练性价比提高40%。
借助Amazon EC2 DL1实例,客户可以针对自然语言处理、对象检测和分类、欺诈检测、推荐和个性化引擎、智能文档处理、业务预测等工作负载进行优化,更快、更经济高效地训练他们的机器学习模型。
Amazon EC2 DL1实例使用专为加速机器学习模型训练而构建的Gaudi加速器,与通用GPU相比,它以更低的成本提供更高的计算效率。
DL1实例配备多达8个Gaudi加速器、256GB 高带宽内存、768GB系统内存、定制的第二代英特尔至强可扩展(Cascade Lake)处理器、400Gbps的网络吞吐量和4TB的本地NVMe存储。最终,这些比当前用于机器学习常见模型训练的基于GPU的Amazon EC2实例的性价比提高40%。
客户可以使用与主流机器学习框架(如TensorFlow和PyTorch)集成的Habana SynapseAI SDK快速轻松地开始使用DL1实例,只需更改少量代码,即可将其当前在基于GPU或基于 CPU的实例上运行的机器学习模型无缝迁移到DL1实例进行训练。
开发人员和数据科学家还可以从Habana GitHub存储库中提供的针对Gaudi加速器优化的参考模型开始,其中包括适用于各种应用程序的流行模型,包括图像分类、对象检测、自然语言处理和推荐系统。
客户可以使用Amazon Deep Learning AMI、Amazon Elastic Kubernetes Service (Amazon EKS) 或Amazon Elastic Container Service (Amazon ECS) 为容器化应用程序启动DL1实例。通过Amazon SageMaker访问DL1实例,客户基于托管服务的体验,让开发人员和数据科学家在云端构建、训练机器学习模型,以及在云端和边缘端部署,变得更加轻松和快捷。
DL1实例受益于Amazon Nitro系统,可将许多传统虚拟化功能卸载到专用硬件和软件,以提供高性能、高可用性和高安全性,同时降低虚拟化开销。DL1实例可作为按需实例、通过Saving Plans、预留实例或Spot实例购买。DL1实例目前已在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)区域正式可用。