2023 KubeCon China,神州数码直面云原生基础架构创新挑战

9月27日,神州数码亮相KubeCon + CloudNativeCon + Open Source Summit China 2023。在久负盛名的云原生及开源盛典上,神州数码信创业务集团技术总监向阳朝与全球顶尖的技术专家共同探讨了开源、云原生技术的最新进展,并分享了神州数码在云原生基础架构创新领域的最新研究与实践进展。

云原生基础架构的发展趋势与挑战

随着数字化转型逐渐步入“深水区”,数字化转型路径正从单一向多路径、全路径转变,弹性敏捷的数字化转型要求云原生应用微服务化,这就导致企业对于IT资源的需求更加弹性,以云原生或应用引擎为代表的新一代数字化技术基础设施面临挑战。

在神州数码看来,云原生基础架构正在面临三个层面的问题,首先是CPU性能增长缓慢,由于摩尔定律减速叠加登纳德定律失效,使得芯片制程提升给芯片性能、节能带来的收益持续降低;第二是带宽流量增长迅速,数据爆炸式增长、网络带宽同步加速增长,但已到极限的单个CPU无法满足数据和带宽大幅增长的需求;第三是IaaS税/ PaaS税,算力的进一步提升受阻于数据中心日益沉重的基础架构IaaS和PaaS所带来的算力消耗和延时。

尤其是,伴随着以ChatGPT为代表的应用爆炸式增长,大模型对算力的调整和部署也提出了新的要求。基于此,神州数码认为云原生基础架构正在从以计算(CPU)为中心向以数据(DPU)为中心转变,服务器将专注业务计算,所有IaaS Infra任务则由IPU/DPU 处理。然而,由于DPU 架构本身还在演进,目前很难兼具高性能和灵活性。为了解决相关难题,神州数码针对性地提出了基于DPU 的云原生服务网格加速引擎解决方案。

基于DPU 的云原生服务网格加速引擎解决方案

近年来,对于性能的担忧成为了推广服务网格过程中遇到的一个显著问题。服务网格为Kubernets微服务的部署和应用提供了有力的保证和丰富的功能特性,但是也引入了计算负担,特别是在业务复杂的情况下会对CPU造成大量的占用。

神州数码通过分析发现,在大规模业务场景下,一些特定程序是对性能造成损耗的关键部分。为了优化这些问题,神州数码尝试通过DPU解决CPU占用的问题。神州数码认为,不同于传统算力,通过算力重组后,将业务逻辑、AI、分布式平台的算力从CPU卸载到不同的平台上,可消减CPU资源的平台税消耗,同时也能够提供算力的灵活调度配给,通过充分整合各类算力资源,实现应用微服务的敏捷开发和敏捷部署。

在此基础上,神州数码推出的云枢系统——针对云原生部署加速的软件和异构硬件系统,可通过软硬件协同设计,充分发挥异构硬件各自专有能力,并对云原生服务网格进行卸载加速,进而重构数据中心基础架构,实现对可横向扩展的高性能云原生算力需求的支撑。这也是业内首次推出的云原生服务网格加速系统。通过部署在数据中心服务器与交换机之间,云枢系统可极大降低IaaS和PaaS所带来的算力消耗和延时,提升数据中心整体算力。

构建零信任的DPU容器网络

在云原生环境中,由于所有微服务都保持在同一个扁平网络中,这也导致了重大的安全隐患。一般而言,基于服务加密的零信任被认为是解决这个问题的主要方案。所谓零信任,即不直接授权信任任何用户、设备、服务,基于身份认证和授权重新构建访问控制的信任基础,从而确保身份可信、设备可信、应用可信和链路可信。但是,目前的技术解决方案要么需要消耗大量的CPU计算,要么无法实现服务可见性,从而造成基于DPU的零信任云原生服务网格架构存在天然难题。

通过对技术的深入研究与理解,神州数码实现了一个零注入和服务感知的零信任容器网络,进一步降低了DPU的应用成本。最终,神州数码独创性地通过软硬件协同设计,充分发挥异构硬件各自专有能力,对云原生服务网格进行卸载加速,进而重构数据中心基础架构。同时,神州数码设计了硬件资源池化的可组合架构,可兼容利用用户原有老旧设备,并极大节约用户的投资。

面对云原生带来的挑战与机遇,神州数码认为新的数字技术栈正在形成。围绕“数云融合”架构,神州数码将持续深耕云原生基础架构创新领域,聚焦以云原生为核心引领的科技革命和产业革命,持续为云原生及开源生态建设和发展贡献力量。