MosaicML 借助 Oracle 加速生成式 AI 模型训练

MosaicML 是一家软件开发商,主要提供用于构建大规模机器学习模型的基础设施和工具。该公司选择了 Oracle 云基础设施远程软件服务(Oracle Cloud Infrastructure, OCI),助力企业从数据中解锁更多价值。自采用 OCI 的高性能 AI 基础设施后,MosaicML 收获了高达 50% 的性能提升以及高达 80% 的成本节省。

MosaicML 首席执行官兼联合创始人 Naveen Rao 表示:“数百家企业凭借 MosaicML 的平台来开发和训练复杂的大型生成式 AI 模型。我们提供复杂的系统和硬件,让我们的客户可以专注于构建和部署高性能定制模型。我们选择了 OCI,因为它是 MosaicML 的理想基础。当我们利用海量云数据进行模型训练时,这是一个分秒必争的过程。OCI 不仅费用更低,Oracle 配置互连的方式也支持我们近乎线性地扩展。”

MosaicML 的模型训练功能可帮助企业提高训练和推理 AI 模型的效率和可用性。MosaicML 选择采用 OCI 来扩展业务,以满足对 AI 服务日益增长的需求。借助 OCI,MosaicML 能够利用新的 NVIDIA GPU,在节点与节点之间以非常高的带宽互连,并访问可扩展到数千个 GPU 的大型计算块。如此一来,MosaicML 能够帮助企业和初创公司实现 AI 模型运营化,其中包括 Twelve Labs。

Twelve Labs 是一家 AI 初创公司,致力于构建适用于多模视频理解的基础模型。借助在 OCI 和 OCI 的 AI 基础设施上运行的 MosaicML 平台,Twelve Labs 能够高效扩展和部署 AI 模型,帮助用户轻松搜索、分类视频数据,并更有效地将其用于各种应用。

Twelve Labs 创始人兼首席执行官 Jae Lee 表示:“MosaicML 与 Oracle 共同为我们提供了理想的协作模式,有助于快速处理大量工作负载,稳步跟上公司的长期发展。MosaicML 让我们能够高效地管理大型 AI 集群,而 OCI 的 AI 基础设施则可以确保我们不必在速度上妥协,大大提升了效率,帮助我们节省了大量时间和成本。”

OCI 提供多种 AI 功能,包括 AI 基础设施。OCI Compute 虚拟机和裸金属 GPU 实例可以为计算机视觉、自然语言处理、推荐系统等应用提供支持。对于诸如大型语言模型 (LLM) 等复杂的大型模型训练,OCI Supercluster 提供超低延迟集群网络、HPC 存储和采用 NVIDIA GPU 的 OCI Compute 裸金属实例。OCI Compute 实例通过 RoCE v2(基于融合以太网的 RDMA v2)进行连接。OCI 所提供的NVIDIA A100 Tensor Core GPUs 具有高带宽的优势,可有效减少机器学习训练的时间和成本。

甲骨文公司高级副总裁 Greg Pavlik 表示:“我们看到,AI 公司纷纷选择 OCI 来运行生成式 AI 模型,因为我们的平台更快、更经济。对于训练 100 亿的参数模型,其他平台需要数天,而 OCI 只需要数小时。OCI 的架构以及非阻塞、低延迟的网络设计,与市场上的其他产品有本质上的区别。”

MosaicML 在 2022 财年第三季度选择采用 Oracle。