11月4日,2022杭州云栖大会《互联网产业与飞天技术创新》峰会上,阿里技术风险与效能负责人张瓅玶表示,经过持续多年上云用云,今年阿里巴巴集团在PaaS(包括大数据、机器学习平台、数据库中间件等)支持的业务形态中支出占用云总成本达43%,阿里业务已进入“全面云原生深度用云”阶段。
以云计算发展历程来看,用云形态主要包括IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)三类。企业在数字化转型初期,主要借助云计算能力构建IaaS资源平台,统一云上云下资源以提升效率。随着大数据、AI产业发展,带来了算力需求的变化,用云形态也发生改变,对IaaS投入比重越低,意味着用云越好。据IDC报告显示,2021年中国公有云(IaaS+PaaS)市场PaaS支出占比为16.8%,相比之下,阿里巴巴在PaaS投入比重已超过业内平均水平。
作为全球首家将所有业务放在公共云上的科技企业,阿里在过去十年经历了云计算能力从单点试验到规模化应用的跃迁式变革。2015年阿里电商业务增长,开始双11弹性上云以解决大促资源的计算缺口;2019年阿里实现核心系统上云,到2020年实现全面云原生化,直至2021年阿里完成了包括电商主营业务在内的数千万核心算力、30余万应用的全面上云。
在大规模业务上云、深度用云的过程中,成本优化对企业来说是一项不小的挑战。张瓅玶表示,对于阿里来说,这取决于对成本的理解和考量。他认为,传统认知中把物理机器成本做简单的分摊是不全面的,成本应以业务单位算力成本来看。“既要看到整个机房和集群的分配、闲置的影响,也要看到业务架构、资源利用率水平,存储和网络的弹性能力等对成本和效能的影响。”
以阿里推动上云业务升级的云产品Flink为例,业务主体在两个月时间内完成了云上迁移,实现性能提升30%以上,成本下降30%,整个过程不需要关注原有集群机器闲置成本以及产品研发团队投入。
过去三年,阿里从核心系统上云、到全面深度用云,正式实现了从统一调度到全面FinOps(云成本优化)实践,即运用成本管理体系支撑优化,通过云计算的弹性能力实现了机器闲置率下降和支持峰值分配率的提升、神龙虚拟化架构带来的CPU利用率提升、以及存储、网络弹性成本下降,最终带来业务整体单位算力成本下降。
除了成本优化,全面深度用云也带来了阿里业务的敏捷创新。通过用云产品灵骏智能计算快速实现超大规模机器学习模型训练交付,在大规模稀疏场景中,训练万亿样本数据时间从两周缩短到半周,提效四倍,训练集群成本下降50%。通过对阿里集团调用量最大的数据库之一Tair的用云优化,今年双11淘宝购物车扩容技术以轻量化连接、异步支持技术支撑起超大连接数,使单集群访问流量达到100GB/s,承载数亿用户同时在线加大购物车。
截止目前,阿里已经使用了60多款重点云产品,这些产品支持集团业务在全球多个可用区开箱即用,不但减少大量运维成本,也可实现随时弹性,并且历经双11稳定性考验。
张瓅玶表示,全面云原生深度用云是算力经济时代的下一个开始。今年,阿里巴巴确立了以“云原生”作为集团整体技术架构的战略,向Serverless化迈进。9月,淘宝首页核心应用率先实现了Serverless架构升级,通过更轻量灵活规范地用云,实现业务快速迭代创新。