中国移动发布COCA软硬一体片上计算架构,引领云计算市场下一个黄金十年

当前,数字经济发展已经成为改变全球竞争格局的关键力量,随着算力成为数字经济新引擎,算力规模持续增长,算力结构发生改变。主动拥抱智算浪潮,持续输出优质算力支撑数字中国建设,适配泛在化、异构化算力推动数智化转型,正成为面向未来基础设施新变革的重要思考。

欲粟者务时,欲治者因势。面向未来基础设施新变革,中国移动把握新一轮科技革命和产业变革趋势,聚焦“算力 + 连接 + 能力”,秉承“开放+共赢”的理念,致力于打造一套标准架构,孕育一个技术生态,联创一系列原创技术,以突破当前“封闭的技术生态,复杂的技术堆栈,碎片化的技术体系”等阻碍算力基础设施健康发展的瓶颈,打造高效、开放、可控、可信的算力架构。

移动云COCA软硬一体片上计算架构重磅发布

4月25日,在2023移动云大会分论坛上,中国移动正式发布移动云COCA(Compute on chip Architecture)软硬一体片上计算架构(下称:移动云COCA架构),打造国家级自主可控的高性能算力底座,从布局国产化智算生态、共建自主GPU+DPU产业联盟、联创高性能网络技术三大方面,带动国产化智算产业成熟发展,抓住云计算技术定义权,引领云计算市场下一个黄金十年。

移动云COCA架构由GPU、DPU、HPN三大核心单元构成,以COCA为核心可打造基于自研可编程DPU、多元异构智能算力、高性能RDMA网络、Diskless存储架构引擎等技术的大模型算力基础设施,旨在实现高性能算力集群化横向融合与垂直抽象,统一实现计算、存储、网络、安全、管控能力的硬件卸载加速。

1、COCA-GPU单元异构协同,构建智算基础设施能力基石

在GPU单元方面,移动云希望与合作伙伴共建自主GPU联合生态,统一算子接口标准、提供统一北向接口,兼容各GPU的深度学习框架。通过AI抽象降低客户迁移成本;通过AI加速提高训练+推理效率;通过AI池化提升GPU资源利用率。

2、COCA-DPU单元实现软硬一体化,释放智算基础设施澎湃性能

在DPU单元方面,以COCA架构为基础,打造网络引擎、存储引擎、管控引擎、虚拟化引擎、安全引擎等五大卸载引擎,软硬融合重构算力基础设施,助力编程加速单元DPU成为新算力核心,重新定义算力时代云计算技术新标准,构建算力时代新技术曲线。

3、COCA-HPN单元攻克多机多卡规模互联的业界难题

在HPN单元方面,COCA架构融合X-Link + 自研“乌蒙协议”+ 分布式通信库等技术,其中,X-Link聚焦算力物理连接提升单机内部算力交互效率,自研“乌蒙协议”聚焦打造端到端高性能网络连接,分布式通信库聚焦算力调度及连接。三者协同配合攻坚大模型等应用场景的算力供给,突破算力连接瓶颈,推动算力新基建能力跃升。

COCA软硬一体片上计算架构令“磐石更坚

COCA架构主要面向算力网络基础设施技术生态,通过算力卸载、解耦、无损技术,力图构建算力的标准化接入生态,同时弥补算力与应用之间的鸿沟。

在2023移动云大会上,中国移动发布第三代磐石服务器,实现关键技术自主可控、软硬一体,现已全面商用支撑计算密集型场景。磐石服务器所搭载的磐石DPU由COCA DPU单元纳管,可有效提升整体算力、整机存储与读写资源等核心性能。

目前,COCA已接入合作伙伴超30家,收获国家级自主知识产权成果50余项,支撑行业落地案例10余个,覆盖政务、金融、科学计算等领域。为加速推动COCA生态繁荣发展,组建了COCA联合生态工作组,将于2024年,打通DPU、GPU、HPN三大单元,面向大模型场景打造一套全栈自主可控的系统,助力国家新型高性能基础设施建设。

面向未来,移动云将不断突破云基础设施根技术自主创新难题,基于COCA建设新型大模型算力基础设施,携手行业伙伴共促技术生态繁荣,带动国产化智算产业成熟发展,为数字中国建设贡献更大的力量。