2017年谷歌的几位工程师和其他几位科技公司同行开源了Kubeflow。Kubeflow是一个工具包,让企业组织可以在基于容器编排框架Kubernetes的基础设施上部署AI工作负载。
Kubeflow 1.0版本引入了该软件几个核心组件,这些组件“定义的稳定性、可支持性和可升级性”都是符合企业用户需求的,也就是说,现在这个工具包作为一个整体可投入生产使用。
Kubeflow 1.0带来了内置管理控制台的稳定版本,其中包含关键功能的快捷方式。功能之一是Jupyter Notebook控制器,现在已经升级到稳定状态,可以让AI团队使用Jupyter Notebook开发工具创建新的机器学习模型。
该模型就绪之后,用户就可以使用TensorFlow或PyTorch对其进行训练。Kubeflow 1.0支持TFJob和PyTorch Operator,这两者让开发人员可以使用他们选择的框架和相对简单的脚本来设置AI训练工作流。
今天公布的版本还有一些面向管理员的功能,这些管理员主要管理开发者构建AI工作负载所使用的基础设施。此外还有kfctl,它可以在云环境中自动部署Kubeflow,以及可以在各个开发人员之间分配环境资源的控件。
谷歌开源策略师Thea Lamkin在博客文章中详细介绍称:“有了Kubeflow,每个数据科学家或者团队都可以得到一个命名空间,可以在其中运行工作负载。命名空间提供了安全性和资源隔离。平台管理员使用Kubernetes资源配额可以轻松限制个人或者团队消耗多少资源,以确保公平调度。”
Google Cloud工程师Jeremy Lewi和Abhishek Gupta在另一篇文章中写道,企业可以在谷歌Anthos应用平台上部署Kubeflow 1.0以获得这些新功能。展望未来,谷歌计划加强对AI工具包的支持。谷歌将允许企业在本地Anthos部署上设置Kubeflow,并与Google Cloud的网络安全功能进行更紧密的集成。