2022ODCC峰会上,华为为数据中心持续进化提供了哪些解题思路

2022年9月5日,一年一度的开放数据中心(ODCC)峰会在京举办。本次峰会以“畅享算力精彩、共赴低碳未来”为主题,邀请众多行业知名专家与企业共同探讨了双碳减排背景下数据中心持续发展所遇到的挑战以及多种可行的应对方案。而作为ODCC生态的重要参与者,华为不仅参加了本次峰会的众多环节,更用主题分享和精准的展台内容给出了这一复杂问题的综合答案。

微信图片_20220907183621.jpg

华为中国政企媒资系统部总经理李腾

领奖“ODCC优秀合作伙伴”

在华为看来,要实现低碳前提下的算力发展,简单来看是个PUE问题,但真正标本兼治的答案则是多样算力的融合发展。通过将多样算力合而为一、综合运用,数据中心便有能力在不同的业务负载类型和专业化的算力硬件之间实现精确匹配,从而让不同类型的基础架构尽可能的处理自己所擅长的任务、始终工作在高效区间;由此,数据中心的服务产出和能源消耗才能实现一升一降,低碳与算力两大目标才能兼得。

微信图片_20220907183628.png

对此,华为计算产品线品牌及产业营销总监白晨表示,实现低碳发展、促进多样性算力的融合发展绝非传统算力和AI算力的简单堆砌,而是需要算力、通讯、操作系统、应用使能等多重因素的通盘考量;其实践方法便是“硬件一体、软件融合”。

达成这一目标并非易事,但好在华为已经蹚出了一条颇具可行性的实践路径。

微信图片_20220907183636.jpg
华为计算产品线品牌及产业营销总监白晨发表主题演讲“算力筑基,以绿色DC共创数智未来”

DC as a Computer,让下一代数据中心像电脑一样高度协同

“2021年底,我国数据中心机架规模达到520万架,近5年复合增长率超过30%。此外,对非结构化数据的处理及AI计算需求仍在快速增长;到2030年,人工智能算力需求将达到目前的500倍。”

这是白晨在ODCC主论坛的分享环节所给出的一组数字,既阐释了数据中心重要性,也表明了多样化算力发展的巨大前景。但在进行算力扩张的同时,数据中心还应该提前做好规划,为异构算力的高效应用铺平道路。

在这一领域,华为的解题思路是“硬件一体、软件融合”。

1、硬件一体

针对很多数据中心所面临的能效、部署周期、管理和空间挑战,华为携手伙伴,推出了全新的液冷集群整机柜产品。通过计算平台、服务器节点、供电、网络、布线、散热等层面的一体化设计,新的集群整机柜不仅在性能方面能够做到“一柜顶四柜”,节约70%机房空间,更能通过冷板式液冷散热技术、集中供电、全背板总线等设计实现能效、部署和运维表现的全维升级。而以机柜为单位进行预制、交付和部署,数据中心用户的产品交付周期也能从过去的3-4月缩短至1周,并在安装过程中做到0水管连接、0电源线连接、0信号线连接的极简部署。

2、软件融合

与硬件系统的通盘考虑一样,华为也在系统和软件层面不遗余力;而其发力点则是欧拉生态和北冥多样性计算融合架构以及鸿蒙、openGauss等一系列基础软件的相互加持。

微信图片_20220907183640.png

过去两年中,华为完成了欧拉操作系统的开源,并将欧拉捐赠给开放原子开源基金会。而由此,欧拉也从创始企业主导的开源项目演进到产业共建,社区自治,以更加开放的模式整合全球开发者贡献,openEuler生态体系保持快速发展。在众多生态伙伴的贡献之下,目前openEuler已经实现ARM、x86、RISC-V等主流处理器指令集+GPU、NPU、DPU等多种异构算力的计算架构100%支持覆盖,适配超100款整机和300余款板卡。

可以说,openEuler已经成为最佳支持多样性算力的数字基础设施开源操作系统。

而在极速成长的AI计算领域,华为则通过北冥多样性计算融合架构的持续更新,进一步拓展了昇腾AI的能力、效率和适用场景。北冥多样性计算融合架构能在基础架构层面支持算力的统一调度,形成基础使能层;此外,还提供了统一的开发工具链和管理软件,让开发者、算力使用者和数据中心都能在一套框架内高效协作,实现“书同文、车同轨”的效果。

从传统计算平台到以用于各类场景的多种加速卡,从服务器和存储产品生态到兼顾算力、密度和能效的液冷集群整机柜,从服务器所使用的操作系统到辅助多样算力协作发挥效能的计算架构,华为正在携手生态为整个数据中心产业上下游提供相互兼容、运行高效且快速迭代的产品、解决方案体系,让复杂、庞大、应用多样的数据中心也能像一台电脑一样有机高效运行。这正是从更高维度解决应用需求、算力发展和绿色节能等一系列复杂问题的靠谱解题思路。

多点发力,为算力的高效与安全筑牢根基

算力方面的问题给出答案之后,我们也同样要重视数据中心在网络通信、安全可靠等所面临的众多实际挑战。

在从系统网络结构上,数据中心当的每个节点都有1-4颗处理器以及0-N个GPU、NPU或DPU;而这样的节点,数据中心里有成千上万,甚至十余万个。并且伴随分布式软件架构的迅速普及,数据中心所要面对的业务很多时候已不再是节点内或单节点对单节点资源协同,而是多对多的大规模跨节点协作。

要解决如此规模、如此复杂的问题,我们当然需要更先进的数据中心通讯技术。

在本次峰会的新技术与测试组分论坛当中,华为DCN标准代表吕云屏女士则为与会嘉宾分享了解决这一问题的最新方法——NDMA(NetworkDMA)技术。吕云屏女士表示:NDMA技术以降低多对多集合通信任务完成时间为优化目标;通过端网协同构建统一的传输框架,将多对多通信逻辑下沉到网络/传输层。相比点到点传输,如RDMA、NDMA降低额外系统开销,最优化多对多通信吞吐与时延性能, 打破分布式系统性能扩展天花板,为大规模数据中心内部的多算力协同和分布式业务系统持续演进提供了更强大的支撑。

微信图片_20220907183645.jpg
华为DCN标准代表吕云屏做主题报告《NDMA,分布式系统高效传输新探索》

而在安全层面,华为安全解决方案首席架构师王雨晨则在本次峰会的安全分论坛中分享了全新的“韧性”安全理念。王雨晨表示:当前,由于安全只以防御威胁为目标,造成系统一定会被攻破的必然结果。华为的“韧性”安全架构,不以尽力而为地对抗威胁为目标,而是致力于通过“三维度”技术体系,构建可信与韧性的网络安全环境,保证系统行为始终处于可预期、可验证的安全状态。从而保证关键信息系统在“漏洞开放、威胁存在、防御失效”的极限条件下,确保业务安全底线。

微信图片_20220907183650.jpg
华为安全产品线首席架构师王雨晨做主题报告《建立韧性安全,确保安全底线》

同时,在本次峰会上,华为参与制定的《分布式存储多协议融合互通技术规范》正式发布。这一规范的诞生打破了当前多种分布式存储系统在综合部署时经常面对的数据格式壁垒,能够帮助用户以0拷贝实现数据格式的转换,能够大幅提升多样性数据的分析效率。

微信图片_20220907183657.jpg
此规范项目经理,华为高级标准工程师赵丽丽荣获“2022ODCC Manger Award”

展台展示

在华为展示区,围绕数据中心计算、数据中心网络及数字基础设施操作系统精炼的展示了最新技术成果及生态进展。展现了“多样算力,筑根DC”理念。

微信图片_20220907183700.jpg
华为以“多样算力,筑根DC”为主题参展

硬件一体、软件融合、多点发力;为数据中心持续高速发展铺平道路

从整个市场趋势来看,2030年前,方兴未艾的AI市场还将迎来500倍的算力扩张,而已经拥有庞大体量的通用算力市场也仍将获得10倍算力的规模增长。诚然,在如此速度的增长之下,数据中心行业还要面临很多挑战、还要解决众多具体问题;我们希望通过硬件一体、软件融合、多点发力思路,助力ICT产业快速进化,构筑安全稳固的互联网基础设施,让数字经济基于技术和算力的持续进步而获得快速跃迁的能力。