智算中心新趋势:摩尔定律放缓,融合架构或迎“黄金十年”

2020年,被纳入政府工作报告的“新基建”主要以数字化、智能化为主基调。围绕着5G、云计算、人工智能展开,全力构建信息数字化基础设施,助推我国社会经济高质量发展。“新基建”强调数字基础设施对高新科技发展的重要作用。

日前,浪潮信息副总裁张东在接受媒体采访时表示,智算中心是“新基建”数字基础设施的主力军,智算中心所承载的AI算力将是驱动智慧时代发展的核心动力。

1、数据中心被誉为新基建中的基础设施,新一轮数据中心迅猛发展的驱动力是什么?

过去十年,数字经济蓬勃发展,深刻改变了人们的生产和生活方式,算力已经成为了数字经济发展的核心生产力。数据中心作为算力的生产供应中心正在驱动科技创新向商业、科研等各个领域扩展。

近年来,互联网的发展使得互联网数据中心成为了主流。最初,互联网的数据中心主要是自用。随着云计算概念的提出,云计算数据中心蓬勃发展且规模不断扩张。近几年中国主要互联网公司的数据中心规模扩张主要源于公有云业务的发展。

新一轮数据中心的迅猛发展有个非常重要的原因——人工智能和边缘计算。人工智能的蓬勃发展使得数据中心里面增加了大量面向人工智能的设备并对外提供人工智能的服务,云、大数据、人工智能的融合发展,也加速促进了融合架构数据中心基础设施的建设。此外,物联网、5G的发展,边缘计算也逐渐兴起,在这样的情况下,对数据中心的需求也会逐渐增长。

在智慧时代,数据中心将成为数字经济社会发展的重要基石,其规模化发展一定是未来趋势。

2、数据中心的形态一直在不断演进,2020年4月,浪潮提出,未来的数据中心会演变为“智算中心”,如何理解“智算中心”这个概念?

数据中心在每一个历史时期所承载的应用和运行模式都不一样。浪潮认为,未来的数据中心将以“云计算+大数据+人工智能”为核心特征,并据此提出了“智算中心”的概念。智算中心的提出,兼具了从技术和基础设施两方面的考虑。

智算中心是智慧时代最主要的计算力生产中心和供应中心,它以融合架构计算系统为平台,以数据为资源,能够以强大算力驱动AI模型来对数据进行深度加工,源源不断产生各种智慧计算服务,并通过网络以云服务形式向组织及个人进行供应。

首先,从技术层面来讲,智算中心将更多地面向人工智能,以云计算为基础,通过处理海量数据,对外输出各种各样的人工智能的服务,做到“云+数+智”一体化。目前,人工智能计算需求正呈指数级增长,未来将占据80%以上的计算需求。因此,我们提出“智算”,与传统的超算中心或者商业数据中心相比,“智”更强调其对于人工智能发展的重要意义。

其次,智算中心是具有公共性的基础设施,要为各行业提供公共服务。现在互联网行业的数据中心发展得很快,一些创新型业务和技术得到了快速发展。相比之下,许多传统行业在数字化转型方面还任重道远,其中一个重要的阻碍就是数字基础设施的缺失。所以,浪潮认为智算中心要具有基础设施的公共性,就像移动网络和高速公路一样,做到普适普惠,发挥社会价值。

未来,计算力就是生产力,浪潮提出“智算中心”,致力于将其建设为计算力生产中心和供应中心,高效、惠普地以云服务形式向组织及个人提供智慧计算服务。

3、“融合”正成为数据中心的建设之道,浪潮也提到“智算中心的融合”,那么如何理解“智算中心的融合”?

未来的数据中心,在物理形态上趋于分散,在业务逻辑上更加集中,计算、存储和网络将趋向融合。

“融合”是智算中心非常重要的特点,“融合”包含三个层面。第一个层面是智算中心内部的技术融合,也即“融合架构”。浪潮认为未来的数据中心,计算、存储和网络之间的边界会越来越模糊,它们会融合为“资源池”,通过软件来进行资源划分。

第二个层面的融合是智算中心与智算中心之间的融合。一个数据中心的规模再大也不可能解决全中国的问题。所以未来的数据中心,会是物理上分散,逻辑上集中的。这就需要我们在建设智算中心之初,就在标准层面实现互联互通,在未来做到不同的智算中心之间,也能够实现数据的流通、业务上的流通。

第三个层面的融合是智算中心和各行业的融合。智算中心要真的变成基础设施,就要深度嵌入到各个行业之中,和CT、OT、智能制造以及传统行业做全面的融合。只有这样,才能实现智算中心覆盖生产生活全部场景的普适普惠。

4、未来,算力将成为重要的资源。然而,摩尔定律率渐渐触及天花板。这对智算中心的算力供应会构成什么影响?

摩尔定律的变缓,恰恰为融合架构的发展带来了新的“黄金十年”。

新的芯片技术更新迭代的速度有所放缓,单纯靠芯片去提升算力性能,在发展上遇到了瓶颈。摩尔定律虽然放缓,但在计算能力的提升方面,仍然有许多机会。  

首先,专用计算芯片的兴起和新型计算模式的研究创新,在传统硅基半导体工艺的放缓的情况下,为缓解算力激增的需求提供的新的解决路径。采用专用的芯片来弥补计算处理能力的不足得到了广泛的应用,比较典型的是,近几年AI芯片及加速芯片的兴起,GPU、FPGA、xPU等各种加速器芯片的创新和使用,在AI深度学习训练和线上推理等应用场景很好的满足了AI算力爆发式增长的需求。

第二,一些新的计算技术、新型存储介质、新的晶体管设计方法和分子层次的计算技术也在加速应用,例如量子计算、生物计算、光子计算技术等,为算力层面的加速创新提供了更大的发展空间;再比如非易失内存DCPMM,其单条内存容量最大可以到512GB,使得推理作业密度提升一倍,每单位作业成本下降近50%。

第三,在体系结构层面,融合架构的快速发展也在加速软硬件设计的协同创新。在硬件层面,通过硬件重构实现资源池化。CPU与GPU、FPGA、xPU等各种加速器将更加紧密结合,利用全互联NVSwitch、CXL、Open CAPI等新型超高速内外部互连技术,实现异构计算芯片的融合;在软件层面,通过软件定义,在可重构的硬件资源池基础上,通过灵活的组织,将不同的资源池组成专业的服务器、存储、网络系统,并实现资源的高效管理和调度以及数据在池化资源的灵动流转。当AI与软件定义结合后,赋予了软件定义更高级的含义。 

目前,浪潮的整机解决方案也在不断进行体系结构的创新。浪潮通过“硬件重构”与“软件定义”两个层面共同驱动“融合架构”创新。浪潮在融合架构技术路线的指引下,持续巩固算力系统、云数智平台层面的优势,提供人工智能服务器、通用计算服务器、关键计算服务器,也会面向海量数据和高速互联提供存储和网络品。此外,将技术栈持续往底层延伸,面向不同的场景,最终形成覆盖芯片、系统、平台和算法的领先产品体系。

5、浪潮是中国历史悠久的IT企业,也在不断追求技术创新,那么目前浪潮在哪些方面去响应 “新基建”发展?

浪潮对于未来智算中心基础设施的业务探索和布局,可能比“新基建”热点还要早。

首先,浪潮这几年发展策略和数据中心的发展方向非常吻合。开放计算是未来的产业趋势,是智算中心的基石。无论是底层的芯片,还是系统、平台、算法,整个技术和产品体系的发展都更趋于开放。在推进开放计算发展的过程中,浪潮参与了RISC-V、OpenStack、OCP、ODCC、Open19等各类主流的软硬件开放社区和组织。同时,以OpenStack、K8s等开放基础设施为底座,融入AIOps和人工智能训练推理平台,构建了云数智一体化开放平台能力,开放计算已经成为浪潮整个业务战略中非常重要的方向。

其次,浪潮也率先布局人工智能。在人工智能层面,浪潮从产品、平台和生态三方面来打造AI能力。产品层面,浪潮打造了全球领先的人工智能服务器;平台层面,推出了领先的人工智能资源管理平台AIStation,以实现AI资源的高效调度管理。另外,为推进人工智能的生态建设,加速产业AI化应用,浪潮提出了“元脑生态”,联合具备AI开发核心能力的左手伙伴和具备行业整体方案交付能力的右手伙伴,真正解决传统行业的AI落地问题。

最后,浪潮通过创新的JDM协同创新模式,为大型CSP用户和传统行业用户提供全程定制化的产品和服务。浪潮具有领先的快速研发能力,能够在最短时间内设计出符合用户的需求的产品和方案。目前,从0开始,浪潮可以在3个月内提供样机,9个月具备批量供货能力。2019年1月10日,浪潮在百度数据中心创造了单数据中心单日交付10000节点服务器的交付纪录,这些服务器是整机柜形态,可以模块化整体交付。

在这一系列实践中,浪潮其实早已经契合新基建政策,助力数字经济发展,推动智慧社会建设。