蚂蚁发布SOFAStack5.0,四大能力支持企业在AI为先的时代建好云、用好云

在AI大行其道当前,数字化转型逐渐深入,企业面临的风险和压力越来越大。11月初召开的云栖大会期间,蚂蚁在杭州发布了SOFAStack的最新版,以可信、智能、多云、绿色能力支持企业在AI为先的时代建好云、用好云,实现数据智能驱动创新。

蚂蚁数字科技事业部云原生产品总监马振雄

蚂蚁数字科技事业部云原生产品总监马振雄对当前数据智能时代企业面临的三大趋势以及蚂蚁的对策进行了分析和解读。

AI时代的三大趋势与蚂蚁的对策

趋势之一:全面上云与多云多芯带来的复杂管控

从天然云原生的互联网,到传统行业开始转变观念逐渐上云,如今,传统行业进入全面上云阶段,除了外围系统上云,最重要的核心系统也在陆续上云。

在技术上,大量复杂的异构系统,包括资源的异构、应用架构的异构、云形态的异构,成为平滑统一上云的障碍。大型企业会采取多云战略,把鸡蛋分散在不同的篮子里,同时,随着国产化信创改造过程的深入,业务应用也会面临多芯的选择。因此,多云多芯也成为企业IT发展的重要选择。

在资金方面,从传统应用架构走向云原生的应用架构,还要面对原有投资的巨大浪费与新增大量的改造成本需求。

这些挑战严重阻碍上云进程。

在自身实践经验的基础上,蚂蚁定义了下一代的统一资源调度架构——打通虚拟化和容器层的资源池,将原有上下叠加的关系改变为共池关系,用统一的引擎去调度,通过屏蔽复杂异构的资源管理,同时让应用能够在统一的操作系统之上纳管,使得性能得到更大提升,同时降低了碎片化,资源利用率更高。

同时,蚂蚁也尝试定义了一个新的应用的上云路径,利用Service Mesh的能力,帮助企业在应用不改造的情况下,快速获得云原生最佳姿势的架构。

趋势之二:AIGC大模型的火爆与算力紧缺

用AI的方式进一步提高企业在运营、运维、生产等各个业务环节的效能,尤其是用大规模AIGC结合上云提质提效,成为更多企业的选择。

然而,大模型的应用也意味着对算力的需求。有调研数据显示,AI的应用对于GPU算力的需求每三个半月翻番。尽管每个企业都会配备一些GPU卡,但其利用率通常不足30%,尤其是国外芯片限制对我国出口的情况下,充分发掘GPU资源的潜力非常重要。

蚂蚁的对策就是探索进一步地把GPU资源进行池化,最大化利用GPU资源,同时针对在线应用、3D渲染类的应用进行CPU和GPU的混合调度,深度支持更复杂、更异构的业务的负载类型。

趋势之三:降本的同时实现减排

后疫情时代,实体经济发展有所下滑,但双碳目标和压力也越来越紧迫,企业普遍采取人员、资源以及成本结构等优化措施推进降本增效,在生产过程中关注原材料的选择、能源的消耗以及产成品的回收利用等相关因素。

事实上,IT部门数据中心是一个主要的能耗存在。

蚂蚁从科技布局的角度定义了自己的根技术,针对不用的应用环境采取相应的对策。

在线应用和离线应用有明显的错峰特征,白天主要面向在线类计算应用,晚上侧重离线类大数据的应用。对此,蚂蚁攻坚在离线混部技术,着手整合资源、提高部署密度,均衡有效地布局计算型与数据类应用的算力需求。

即使是在线应用,也存在错峰情况。如早上起床后要抢蚂蚁森林的能量,午餐支付用支付宝,下午股票收盘需要对基金行情查看和赎回,都会形成一阵新的高峰。蚂蚁采取云原生分时调度技术,进行错峰的资源削峰填谷。

由于市场需求难精准预测,特别是遇有双11或618大促来不及扩容,很容易导致故障的发生。蚂蚁利用AI对容量风险识别和智能弹性扩缩,资源利用率从9%提升了到近40%,每年节省超500万度电,减少了1600多吨碳排放。

在离线混部技术、云原生分时调度、AI弹性容量这三个法宝,组成了蚂蚁绿色计算的技术核心,让SOFAStack变得更绿色。

持续深化人工智能技术的应用

除了应对上述三大趋势,蚂蚁还将人工智、大模型能深入应用到研发领域。

为了支持应用在上云之后能够更平滑、稳定的运行,蚂蚁正在借助AI技术推进云原生的应用实现“自动驾驶”。通过引入人工智能技术识别、对比基线,去禁入和限流,引导流量的压力水位快速、自动下降到健康的区间。一旦流量异常情况危险警报得到解除,限流智能模块将自动退出。整个过程对于运维人员和终端用户是无感的。

马振雄认为,大模型可以产生重复性、相似度比较高的代码,显著提升研发效能,并带来颠覆性的重构机会。为此,蚂蚁自研了340亿参数的代码大模型,支持Java、Python、C++等40多个主流的编程语言。对于开发人员,通过大模型支持一键生成代码,自动介入、干预,推荐、补全背后的业务逻辑的增删改查的重复度比较高的代码并一键生成注释,还能够对代码进行深度分析,提出优化建议,提高代码质量;对于架构人员,通过自然语言的描述和交互生成业务领域与应用架构的建模,一键生成所需代码模块的初始代码;对于测试人员,在设计阶段可通过自然语言的描述快速生成测试的需求和案例,在开发阶段生成单元测试案例和接口的测试案例,同时捕捉整个生产环境的流量进行完整的业务建模的还原;对于运维人员,从发现故障到定位原因,再到恢复故障提供智能监控、智能异常告警和智能的根因定位以及智能的自愈等能力,实现技术风险防控(SRE)全面的智能化升级。

SOFAStack5.0的内涵、成果与责任

通过完整的智能的大模型和AIGC的能力的升级,SOFAStack变得更智能;通过统一的下一代的资源调度的架构和Service Mesh,可帮助应用更好平滑的上云路径;通过定义一个让SOFA变得更多云的形态,增强计算环境、软件供应安全和整个应用层面不同维度的安全能力,让SOFAStack变得更可信,最终实现智能、绿色、可信和多云。

这4个关键词组成SOFAStack5.0的内涵。

对SOFAStack缺乏了解的人,可以这么理解:如果企业是一台计算机,那么SOFAStack就是这计算机上大规模、高性能、智能化应用的操作系统。它以性能、成本、效能、高可用、安全、可信的能力支撑起企业信息系统高效、安全地运转。

2007年,在互联网金融驱动业务增长的时代,蚂蚁开始布局分布式云原生领域,并将长期积累的成果形成SOFAStack。它定位于一个统一的、跨云的PaaS平台。这个跨云的PaaS平台向下屏蔽异构IaaS,兼容物理机、虚拟机、OpenStack云、各种云以及国产主机、信创等不同类型的基础资源,客户无需关注底层资源,即可实现统一的纳管支撑以及统一的调度;向上支持异构应用,无论是单体式应用还是分布式架构,无论采用何种开发语言编写、用何种开发框架来进行组装、用何种协议来进行通信,都可以在这个统一的PaaS上进行统一的管理和治理。

SOFAStack以一整套的技术产品成为当前布局最广泛、最成熟和完善的技术平台。

从业务的梳理、设计、建模到应用的架构设计、开发、测试、发布、运行、监控和运维以及容灾过程,SOFAStack实现了完整的生命周期覆盖,帮助企业构建更加绿色、智能的能力,提升上层业务的稳定性以及可能性。

这些能力也抽象出来了一套金融级云原生方法论。

蚂蚁集团数字科技事业群云原生科技部总经理王磊

蚂蚁集团数字科技事业群云原生科技部总经理王磊回顾了SOFAStack从诞生开始就不断在金融支付交易等领域深入合作、探索,把技术能力赋能整个行业,支持关键领域和系统的全面上云、自主可控,降低成本,在金融行业从信息化、数字化到如今智能化的三次跃迁过程中展示自己的能力和价值。

时至今日,SOFAStack在金融行业市场占有率位居第一,客户覆盖了银行、保险、证券、基金100多家重点领域,包括工农中建交等国有大行,8家股份制银行中以及大量的城市商业银行、农村信用社;其中典型案有交通银行核心大机的x86迁移,富滇银行的国产化替代,以及四川农信全面的数字化转型,它们都是基于SOFAStack以及相关云基础设施构建起一整套数字化的基础平台。

目前,SOFAStack也已经在能源、电力、交通、政务、运营商以及公共科技等关键的国家重点行业、重点领域发挥着重要的作用。

 “在过去的18年,蚂蚁集团通过对上层显著复杂性和多样化的各样业务不断地进行技术钻研和攻关,打造出了SOFAStack这个云原生分布式的技术平台,成为面向未来最核心的根技术能力之一。”王磊期待SOFAStack进一步能够走向全行业,赋能更多的企业,完成云原生的升级和数字化的改造。

SOFAStack不仅仅简单是一个金融行业的基础设施,在未来也是整个中国机构数字化的关键核心力量。