Amazon SageMaker:Stable Diffusion背后的神秘力量

2022年,DALL-E 2、Stable Diffusion、Imagen、Midjourney的出现让AIGC(利用人工智能技术来生成内容)的话题热度火出了圈。

原因再简单不过,用户输入几个简单的文本就能生成一张令人惊艳的图片,人人都能用肉眼亲眼见证了AI的神奇力量。

笔者用过Stable Diffusion和Midjourney这两个方案,最熟悉的还是可部署在本地,支持低配置个人电脑的Stable Diffusion。【可插入相关阅读链接】

Stability AI创始人兼CEO Emad Mostaque的推文

Stable Diffusion是Stability AI旗下的一个开源项目,Emad Mostaque曾表示,训练该模型使用了256块英伟达A100显卡,耗费了15万机时,花费了60万美元的成本。

60万美元多吗?

其实不多。有人估算OpenAI GPT-3的训练成本大约是1200万美元,相比之下,Stable Diffusion确实不算贵。

无论如何,对于大模型训练成本控制都非常重要,动辄百万元规模的训练,必须要让钱花在刀刃上。

笔者此前就注意到,Stable Diffusion是在亚马逊云云科技上完成的训练。

2022年12月前后,Stability AI和亚马逊云科技还宣布了合作关系,合作中提到使用亚马逊云科技旗下的机器学习平台Amazon SageMaker和亚马逊云科技自研的机器学习训练芯片Trainium。

Amazon SageMaker可以提高机器学习的开发效率,Trainium可以降低机器学习的训练成本,配合大规模优化的训练集群,能降低机器学习的训练周期。

据了解,Stability AI 使用 SageMaker 及其模型并行库将训练时间和成本减少 58%,这些优化和性能改进适用于具有数百或数千亿参数的模型,对于成本控制非常有意义。

作为一名技术爱好者,我在本地电脑上用Stable Diffusion生成过大约几百上图片,也试过在Amazon Sagemaker平台上跑过几个Demo,训练过几个机器学习模型,对两个东西都稍有了解。

而我也知道,Stable Diffusion还在快速演化当中,Stable Diffusion进化到了2.0版本,而亚马逊云科技的Amazon Sagemaker也在不断更新。

在三个月前的亚马逊云科技峰会的re:Invent上,Amazon Sagemaker推出八项新功能,如果从2017年发布算起,六年来新增超过290项功能与特性。

Amazon Sagemaker的功能组件可谓是琳琅满目,有大概十几种工具组成,每次打开Amazon Sagemaker都能看见一些新功能特性。

虽然功能很多,但是由于Amazon Sagemaker的产品设计简洁明了,并且有详尽的文档,实际入门使用门槛很低,笔者认可Amazon Sagemaker推动机器学习普惠化的说法。

近日,全球市场研究机构IDC发布《2022年亚太地区(不含日本)AI生命周期软件工具和平台供应商评估》报告中把Amazon SageMaker放在了最右上角的“领导者”位置。

来源:IDC MarketScape

IDC MarketScape评估模型图中,纵坐标评估的是短期内的市场表现,横坐标评估的是未来三五年能否满足市场需求的问题。另外,圆圈的大小表征的是市场规模大小,在模型图中,亚马逊云科技的整体优势明显。

IDC报告指出,凭借在功能和产品、服务交付和增长方面的强大优势,Amazon SageMaker成为亚马逊云科技有史以来推出的增长最快的云服务之一。

机器学习涉及一套复杂冗长且重复的工作流程,开发过程中确实需要一套稳定的开发环境。

作为全球首个用于机器学习的集成开发环境(IDE),Amazon Sagamaker为客户的数据准备、模型构建、训练、评估、部署、MLOps和可信度提供端到端的完全托管服务,为企业的整个机器学习生命周期提供支持。

Amazon Sagamaker推动机器学习能力的普惠,使开发人员、数据科学家和商业分析师能够快速、轻松地准备数据,并在规模上构建、训练和部署高质量的机器学习模型,为没有机器学习经验的商业分析师提供的无代码环境。

从技术不断发展的眼光来看,随着机器学习模型参数的规模越来越大,随着训练所需算力的不断提升,在本地搭建机器学习模型的做法显得越来越不合时宜,公有云将是承载机器学习训练的重要载体。