2020年5月12日,AWS举行在线发布会,宣布在AWS中国(宁夏)和(北京)区域正式上线一件人工智能利器——Amazon SageMaker。AWS中国 (宁夏) 区域由西云数据运营,北京区域由光环新网运营。
Amazon SageMaker 是一项完全托管的服务,可以帮助开发者和数据科学家快速构建、训练和部署机器学习 (ML) 模型。SageMaker 完全消除了机器学习过程中的繁重工作,让开发高质量模型变得更加轻松。AWS的愿景之一是要将亚马逊在机器学习方面的经验和专长输送给所有的企业和机构,而Amazon SageMaker在AWS实现这一愿景的过程中扮演着极为重要的角色。
对于Amazon SageMaker在中国区域上线,AWS全球副总裁及大中华区执行董事张文翊表示,“在中国,越来越多的公司在探讨机器学习和人工智能的潜力,思考如何把这些技术融入到日常应用当中。但实际上,除了少数具有专家人才和数据科学家的企业外,大部分公司还是很难应用机器学习的。客户希望我们想办法让这项技术变得更方便易用。AWS提供了广泛、深入的机器学习和人工智能服务。Amazon SageMaker在AWS中国(宁夏)区域和AWS中国(北京)区域的上线,将帮助更多中国客户去除机器学习涉及的混乱和复杂性,让他们能够胜任构建、训练和部署模型的工作,来应对新的挑战。”
进入机器学习的黄金时代
这几年,人们大量谈论人工智能与机器学习,以及它们应用在企业数字化转型上的光明前景。知名的研究和咨询机构Gartner每年都会发布新技术成熟度曲线(Hype Cycle),展现各种技术和应用的成熟度和采纳情况,以及它们在解决实际业务问题、探索新的利用机会方面,潜在有多少相关度 (*1)。我们发现,最新的2019人工智能新技术成熟度曲线(*2)显示,许多人工智能的技术正在快速成熟。
有趣的是,机器学习的概念其实早在50年前就出现了,当前多数的机器学习技术都在几十年前就已经发明出来。只是直到今天,随着云计算的出现,人工智能和机器学习才能进入千千万万的企业,而不再局限于少数科技巨头和硬核的研究机构。
云计算时代的到来,扫清了广大企业应用人工智能和机器学习的障碍,而即便最保守的企业在当今都无法忽视人工智能的作用。根据IDC的数据,当前40%的企业数字化转型项目都会运用人工智能。IDC预计,到2023年中国人工智能市场规模将达到979亿美元,2018-2023年复合增长率为28.4%。(参见:IDC FutureScape: 全球人工智能市场2020年预测——中国启示,2020年1月)
AWS首席云计算企业战略顾问张侠博士表示,“全球各地的公司,从初创公司到大型企业,部署机器学习应用程序几乎是普遍的重中之重。数以万计的公司, 几乎涉及每一个行业和细分市场,开始将机器学习应用于其工作负载,从数据中获得更多价值,获得洞察,提升业务。我们正在开启机器学习的黄金时代。以前阻碍机器学习在现实世界应用的许多限制开始消失。许多风口正在汇集在一起,使得部署机器学习变得前所未有的简单。”
AWS输出亚马逊机器学习能力
亚马逊是探索和应用机器学习技术的佼佼者。20多年来,它在人工智能和机器学习方面进行了大量的投入,在线零售的个性化产品推荐、机器人仓储中心、无人机送货、Alexa语音助理、Amazon GO无人值守超市誉满全球,这些都依靠人工智能和机器学习技术的支持。在亚马逊,专注从事机器学习和深度学习的工程师有数千人之多。
AWS交付了广泛而深入的机器学习服务,亚马逊率先使用这些服务并且提供反馈意见。这些意见加上AWS其它机器学习客户的反馈意见,推动着AWS不断创新,促使AWS的机器学习服务组合日益强大,日益受客户欢迎。
当前,在云上实现的机器学习应用,绝大多数都构建在AWS之上,使用AWS机器学习服务的客户数以万计。知名的客户包括通用电气、西门子、道琼斯、Autodesk、拜耳、英国航空、盖洛普、洛杉矶快船队、松下航空电子(Panasonic Avionics)、环球邮报和T-Mobile等等。
支撑AWS机器学习服务的,还有AWS在计算、存储、数据库和数据分析等方面广博深厚的能力,以及它们优异的安全性、可靠性、可扩展性和成本效率。
获得分析机构高度评价
AWS在机器学习方面的实力也得到了分析机构的高度评价。Gartner在2020年2月最新发布的《云上AI开发者服务魔力象限》(*3) 中,将AWS就技术执行力和对技术未来发展愿景的完整规划上排名在领导者象限最高位置。
让机器学习没有门槛
制约人工智能广泛应用的因素有三个方面:一是掌握人工智能专业知识的人才不足;二是构建和扩展人工智能的技术产品有难度;三是在生产经营中部署人工智能应用费时且成本高。最终导致缺乏低成本、易使用、可扩展的人工智能产品和服务。
Amazon SageMaker的出现,正是为了帮助企业解决这些挑战。
Amazon SageMaker是一个工具集,提供了用于机器学习的所有组件,贯穿整个机器学习的工作流程,从而以更少的努力、更低的成本、更快地将机器学习模型投入生产。
Amazon SageMaker提供了强大的功能,如弹性笔记本、实验管理、自动模型创建、调试与分析,以及模型概念漂移检测,等等。这些功能封装在首个面向机器学习的集成开发环境Amazon SageMaker Studio中。集成开发环境 (IDE) 当前是IT界一个重要的概念。同时,AWS还在不断地为它增加新功能,仅仅在2019年就增加了50多个新功能。
例如,自动构建模型的功能Amazon SageMaker Autopilot。它是业内首个可以让开发者对其模型保持控制和可见性的自动化机器学习功能。之前的机器学习自动化方法,可以为开发者自动创建一个初始模型,但是对于模型是如何创建的、模型中包含什么内容,并没有数据提供给开发者。如果模型达不到预期,开发者想要改进它,就没有什么办法了。此外,之前的机器学习自动化服务只给客户一个简单的模型。有时客户希望做出一些取舍,例如以某个版本的模型牺牲一点准确性,以换取更低延迟的预测。但是如果客户只有一个模型可用,就没有这样的可选项。
Amazon SageMaker Autopilot会自动检查原始数据,应用特征处理器,挑选最佳算法集,训练多个模型,对它们进行调优,跟踪其性能,然后根据性能对模型进行排名。点击几下鼠标,用户可以得到易于部署的、性能最佳的模型推荐,而这只需很少一点时间和精力用于训练。并且,用户可以清楚地看到模型是如何创建的,以及模型中包含什么内容。缺乏机器学习经验的人可以使用Amazon SageMaker Autopilot轻松地生成仅基于数据的模型,经验丰富的开发者可以使用它快速开发基础模型,团队可以在此基础上进行进一步迭代。Amazon SageMaker Autopilot为开发者提供了多达50种不同的模型,可以在Amazon SageMaker Studio中查看。因此,开发者能够针对应用场景选择最佳模型,并且可以结合不同的优化因子考虑多个候选模型。
再举一个图神经网络(GNN)部署的例子。DGL (Deep Graph Library) 图神经网络框架是由AWS上海人工智能研究院开发的一个开源代码库,旨在简化图神经网络的实现和部署。作为AWS在亚太地区首个人工智能研究院,AWS上海人工智能研究院致力于与中国顶尖大学和研究机构协作推进人工智能研究项目。DGL还有助于提高基于GNN的推荐、欺诈检测和药物发现等系统的预测准确性。当前,尽管GNN在研究中显示出了诱人的前景,但是它们的实际应用却非常有限,这是因为需要复杂的基础设施来训练大型图数据,并且缺乏可靠的、特定领域的模型。开发GNN需要在具有数百万个节点的的图上查找和训练,构建和维护执行如此训练所需的计算基础设施非常耗时。Amazon SageMaker的DGL支持,消除了打包软件依赖项、构建基础设施和寻找已验证模型的负担。这样,开发者可以在数小时而不是数周或数月内测试和部署GNN。AWS深度学习容器打包了所有软件依赖项,而且Amazon SageMaker API自动设置和扩展了训练图所需的基础设施。有了已验证模型的打包库,开发者可以立即测试最先进的GNN模型,并将它们集成到应用程序中。
Amazon SageMaker不仅功能非常强大,而且易于使用。朱朋博是IT网站百易传媒(DOIT)的一名编辑。大学读电子专业的他,毕业实习自学Java、C#编程,在做了一年程序员后,2013年开始做编辑工作,编程再次成为业余爱好。朱朋博利用AWS海外区域的免费体验资源,使用Amazon SageMaker,只用了不到10分钟就成功地训练出一个机器学习模型。关于朱朋博的体验过程,可以点击《十分钟,小白的我用亚马逊云服务(AWS)的SageMaker训练了一个ML模型》了解更多。
备受中国客户及合作伙伴期待
在全球数以万计使用AWS机器学习服务的客户名单中,也有不少中国客户。例如大宇无限、虎牙、嘉谊互娱、华来科技等,他们都选择Amazon SageMaker大规模构建、训练和部署机器学习模型。
大宇无限是一家专门从事移动应用程序开发的公司,主要为中东、东南亚和拉丁美洲等新兴市场提供移动短视频服务。大宇无限技术副总裁刘克东表示:“在大宇无限的产品中实现视频内容的在线推荐,对我们的开发团队来说是一个巨大的挑战。构建机器学习系统的整个流程极为复杂,需要大量的开发人员耗费很长的时间才有可能完成。Amazon SageMaker极大地简化了机器学习系统的构建、训练和部署流程,使我们无需构建基础设施,我们的算法工程师只需为Amazon SageMaker准备数据,仅用了三个月的时间就从零完成了整个系统的建设并承受了实际用户访问的压力。”
AWS合作伙伴网络 (APN) 成员也对Amazon SageMaker在中国区域上线表示欢迎。伊克罗德是AWS的核心级咨询合作伙伴 (APN Premier Consulting Partner),其基于AWS的解决方案极大地减少了用户的开发时间与运营费用。伊克罗德中国区副总裁桂梓捷表示:“我们运用Amazon SageMaker平台加速企业导入行业AI解决方案,如标签标注、文本分析、语意理解、预测分类、推荐系统与诈欺侦测等,针对客户实际遇到的商业问题,量身打造真正解决问题的端到端AI应用。随着Amazon SageMaker在中国区域落地,我们将会以SageMaker平台作为企业MLOps(机器学习运营)核心,协助企业构建MLOps流程,尤其在金融行业领域,帮助企业内部数据科学家与AI工程师建立、训练与部署机器学习模型。”
AWS全方位支持机器学习
实际上,Amazon SageMaker只是AWS机器学习解决方案的一个层面。AWS提供的机器学习解决方案是一个包括三层的服务堆栈。如下图所示,Amazon SageMaker是其中间层。在这一层,主要通过Amazon SageMaker这一完全托管的服务,完全消除了机器学习过程中的繁重工作,让开发高质量模型变得更加轻松。
AWS也根据不同类型客户的需求,提供了全面的机器学习解决方案。
三层服务堆栈的底层,为想要自己构建算法或开发新框架的客户提供灵活选择,客户可以选择使用TensorFlow、PyTorch、Apache MXNet、Chainer、Gluon、Horovod 和 Keras等机器学习框架。在这一层,AWS 专注于性能、灵活性,降低成本,以便任何用户都可以使用最新的基础设施,对多种框架进行试验。借助AWS,客户可以访问针对机器学习的、最强大的 GPU 实例,应对最苛刻的应用场景。
在三层服务堆栈的顶层,AWS提供了训练好的人工智能服务,这些服务主要解决与人类认知相关的典型问题。例如,计算机视觉方面的服务,可以识别图像或视频中的对象、人员、文本、场景、活动和不安全或不适宜的内容。个性化推荐服务可以从库存中向消费者推荐多种产品和服务。客户可以直接在其应用中调用AWS提供的这些人工智能服务,而无需关注服务背后的机器学习模型。
作为全球云计算的开创者和引领者,AWS借助云计算的东风站上了机器学习的风口,与此同时,又借助云计算,正在推动机器学习这一风口。