上云不等于用好云,阿里云携手Mobvista全面释放云计算技术红利

尽管新冠疫情对全球经济发展造成了严重影响,但企业还是保持乐观。一个证据是,在商业实践、产品和数字化转型上的支出,将继续稳定增长。国际知名数据调查机构IDC发布的2020年《全球数字化转型支出指南》显示, 2020年全球数字化转型和服务支出将增长10.4%,达到1.3万亿美元;虽然明显低于2019年的17.9%,但仍显现出了企业对于数字化转型的迫切需求。

作为数字化转型的重要基础之一,云计算为企业提供了数字化转型的核心驱动力,正以超前的速度普及。许多企业借助云计算快速成长,在细分领域取得了惊人成绩,但也有一些企业没能充分利用到云服务“按需使用”的最大优势,云上成本较高。

为了解决以上问题, 2019年的云栖大会上,阿里云联合Mobvista汇量科技推出大型弹性集群管理平台SpotMax,旨在帮助更多企业构建符合云端特点的系统架构,充分利用云端高弹性资源助力企业享受云计算带来的技术红利。

SpotMax的故事从一份军令状说起

2017年,随着Mobvista移动互联网广告业务的爆发,流量激增进一步带动企业云成本大幅提升。彼时的Mobvista已经在降低云端成本上做了好几轮尝试,包括对低CPU利用率机器的合并淘汰,对数据存储的优化,购买Resolve Instance预留实例等。但是云资源成本问题仍然给公司带来了巨大的挑战。在此背景下, Mobvista创始人段威找到了蔡超,他相信蔡超一定有方法降低Mobvista的用云成本。

朋友公司的一些用云现状,加之段威的这次邀请,让蔡超意识到 ,在云端构建成本可控的大规模系统是一个非常有价值的尝试,蔡超觉得应该为此做一点什么。于是他请辞当时的工作单位正式加入Mobvista,担任首席架构师一职,并立下军令状,将Mobvista的用云成本降低至少40%。

充分利用云端弹性资源完成军令状

进入Mobvista后,蔡超首先对Mobvista的系统架构进行优化,将Mobvista原本的云单体系统向云原生架构进行改造。构建了一个分布式的微服务架构,使得系统更加具有弹性、更高可用性,也能更好地利用云端的高弹性资源。

阿里云全球化部署的数据中心,让Mobvista离各地用户足够近。同时,Mobvista结合阿里云的弹性伸缩服务与spot抢占式实例等基础设施,研发出一套云端集群管理平台SpotMax。

弹性伸缩是阿里云的一种资源管理服务,可以根据用户的业务运行状况和弹性策略,自动创建和释放资源。而抢占式实例是阿里云推出的一种低成本竞价实例,类似于广告竞价模式。企业需要在创建抢占式实例时指定出价价格,当指定实例的市场价格低于企业出价且库存充足时,用户即可按照出价购买并使用该实例1小时。而1小时后,当市场价格高于企业指定价格,实例会自动释放。

抢占式实例的生命周期(来源于阿里云)

据蔡超介绍,抢占式实例的价格通常情况下仅为按需实例的20%左右、因此利用阿里云抢占式实例,无疑是降低企业用云成本的有效方式之一。但如何降低实例被释放时对业务造成的风险呢?这是大多数企业使用抢占式实例时最为担忧的问题,此前Mobvista正是由于这一原因才选择较为保守的预留实例模式,而非最高性价比的抢占式实例。

对此,SpotMax通过产品化的手段降低抢占式实例的释放率,寻找资源和成本之间的平衡点,在保证系统可用性的前提下,有效降低了企业用云成本。

最终,Mobvista实现了单位广告请求成本降低约65%,蔡超完成了当初立下的军令状。随后,为帮助更多企业节省云成本,更好利用云端高弹性资源。Mobvista将自身成功的经验产品化,联合阿里云推出了大型弹性集群管理平台SpotMax。旨在充分发挥阿里云抢占式实例价格优势的同时,智能化维护并保证集群稳定。帮助更多企业轻松享受更高性价比的优质云服务。

实现了同等算力下,SpotMax最高可为企业节省90% 的用云成本,而在相同的预算内,SpotMax则可以将企业享受的算力提升10倍。

阿里云搭线,SpotMax首战告捷

SpotMax推出后,很快便迎来了第一家企业用户。一家转型DSP广告投放的公司经阿里云推荐找到了Mobvista。

据了解,该公司在转型DSP广告投放业务后,每日所需的用云资源量波动巨大,为满足资源波峰,需增加大量的用云成本。为解决成本问题,该公司CEO开始思考如何最大化利用阿里云抢占式实例特点,达到既满足自己企业的弹性业务需求,又尽可能地压低成本。

了解到该公司的诉求后,阿里云第一时间便想到了SpotMax。阿里云技术同学回忆,“当时,我们首先便想到了通过SpotMax解决这家企业的用云成本问题,因为该企业所面临的的困境与当初Mobvista所面临的困境非常类似,同时DSP广告业务也与Mobvista的业务具有共通性”他认为能够大幅节省Mobvista用云成本的SpotMax同样适用于该企业。

蔡超回忆,拿到该企业的需求后,团队第一时间针对导致其云成本上升的原因进行了分析,很快便发现当时该企业的服务器机型规格大不易伸缩,缺乏灵活性。这也直接导致了流量增加后,该企业用云成本增加,业务拓展难的问题。蔡超表示,目前大多数企业的现有架构都是在云诞生之前搭建的,传统的架构模型很难有效利用云计算带来的弹性优势。他进一步解释道“目前市场上并没有一本关于架构的书可以解决企业上云成本高的问题,很多分布式的书,包含MIT相关的书,都是在云之前就写的,因此并不符合云的特点。”

了解Mobvista已通过SpotMax在过去两年节省几千万美元用云成本支出后,该企业迅速与Mobvista达成了合作。据该企业CEO透露,之所以这么快达成合作,是因为他们自身的业务与Mobvista具有高度的共通性,通过Mobvista的成功经验,他们 “既看到了远大的方向也看到了落地的实际行动”,最终通过SpotMax,该企业实现了单位请求成本节约50%,并在财年结算中实现盈利。同时通过SpotMax对原有的架构进行优化后,进一步找到了更多的业务可能性。这对于他们来说,“可谓是意外之喜”该CEO在与阿里云及Mobvista的沟通中如是说道。

全面挖掘云计算技术红利

现实中,由于企业自身架构不符合云的特点而导致企业用云成本居高不下的案例并不少见。蔡超表示,上云并不等于用好云,上云不是单纯地将企业业务平迁到云端,而是一个不断实践探索如何用好云的过程。因此,SpotMax在设计过程中充分考虑到了企业上云用云的多方面诉求,不仅是帮助企业节省上云和用云成本这么简单,还为企业提供更全面的服务。

据蔡超介绍,SpotMax方案共包含三个部分:MaxArch、MaxChaos和MaxGroup。其中MaxArch提供对企业现有架构的评估以及向云端迁移和云原生架构的设计;MaxChaos主要提供混沌工程服务,可帮助企业持续提高系统的可用性;而MaxGroup则是Spot Instance集群管理服务,通过集群防退化、Spot Instance集群推荐及基于强化学习的混合集群负载均衡等,帮助企业节省用云成本。

究竟什么样的企业更适合使用SpotMax呢?蔡超表示,原则上只要使用云服务的企业,都可以使用SpotMax的服务。不过,拥有大量用户请求,需要快速响应、与用户体验极为相关的场景,SpotMax的作用会更为突出,比如,程序化广告、电商、电子政务、企业管理服务(CRM,ERP)和高性能计算等行业。

之所以选择与阿里云合作推出SpotMax,蔡超表示,是由于阿里巴巴拥有服务企业的完整生态。有数据显示,截至2019年年底,全球已有超300万家企业在使用阿里云。