中国工程院士郑纬民:以多样性算力全栈创新,提升算力供应韧性

4月22日,多样性算力产业峰会在北京召开,中国工程院院士,清华大学教授郑纬民发表了名为《多样性算力协同创新 打造数字经济坚实底座》主题演讲,以下是演讲全文:

数据是新的生产资料,算力是很重要的事情。过去物理世界,发展电力是很重要的生产力,现在数字经济算力是非常重要的指标。我们平均每个人算力多少,反映了数字经济水平。因此现在国家平均算力还处于中等水平,数字政府、金融科技、智慧医疗、智能制造、互联网创新都需要算力。

近几年算力发展得突飞猛进,比摩尔定律快多了。摩尔定律每18个月翻一番,而现在的算力,举例来说,做AI人工智能最重要的是自然语言处理,自然语言处理做预处理模型,这个模型搭载很快,基本上每3到4个月算力翻一倍。从18个月到3、4个月翻一倍,所以算力是突飞猛进的。

算力也是多样性的,应用到智能城市、物联网、智能驾驶、AR/VR。数据也是有文本、语音、图片、视频。涌现出了各种各样的应用、各种各样的数据、各种各样的需求。因此我们说硬件计算也是多样性的,比如通用的CPU、GPU、NPU、DSP、NP等等。我们必须要提升算力供应的韧性,打造数字经济的坚实底座。

一方面看,硬件x86、CPU,操作系统SUSE、Redhat,应用系统也是国外的通信系统和应用软件。另一方面看,自主可控的芯片、自主可控的操作系统、自主可控的数据库及中间件、自主可控的通信系统及应用软件。因此我们说基于全栈,开展多样性算力创新,从硬件软件的应用开展自主可控创新,提升算力供应韧性。多样性从硬件开始到操作系统,到数据库,一直到应用都需要多样性。

当前来说,应对多样性算力还有点困难,主要基于三个原因:

第一个原因,标准体系不成熟。标准体系影响产业规模发展,多样性算力技术栈缺乏协调,不同OS、固件、整机、芯片平台兼容性问题突出。多样性算力服务器管理面能力不齐,运行维护复杂,安全风险大。

第二个原因,评测基准不完善。评测芯片、评测操作系统、评测数据库的系统不够完善。性能评测基准不完善,缺乏牵引产业进步公正的“标尺”。要有标准,做得好才能促进产业发展,现在公正的标尺还没有。当前国际组织限制国内厂商参与基准制定,“评分高、运行卡”基准无法准确体现负载实际效果问题。

第三个原因,生态发展薄弱。应用软件系统行业适配度平均40%,需进一步攻坚生态薄弱。操作系统、数据库、中间件等重要基础软件面临停服、卡脖子等风险,需加速国产化优秀软件推广应用。软件适配和调整有一定成本,需加大推广和持续优化自动化工具,共享优秀实践。ISV多次适配成本很高,需建立多样性算力软件适配标准及成果的共享机制。

面对这些现状该怎么办?答案是:共建多样性算力产业体系,打造多元产业生态,为世界提供新型算力基础设施。

第一,开放协作,联合最终用户、芯片、IP、部件、整机、ISV、学术研究机构定义多样性算力共识。

第二,标准引领。开发整机和部件标准体系,丰富多样性算力供应与创新。开发通用部件与整机性能评测体系,牵引多样性算力技术进步。开展异构计算架构体系研究,定义多样性算力未来演进。

第三,共建生态。打造多样性算力应用迁移与调优工具体系,做好调优的工具,想办法迁移、适配。另外基于原生开源社区促进自主可控基础软件创新,统一验证规范,共享软硬件适配生态。

2021年能做点儿什么事?

第一,发布《多样性算力技术愿景白皮书》,明确多样性算力产业发展方向,发出产业合作倡议。

第二,技术引领,完成4项技术要求,包括NFV领域向ARM服务器迁移、兼容测试、性能测评、服务器管理面。

第三,生态建设,实现ARM平台应用迁移、调优工具,1套测试验证规范,1套生态适配列表,1套联合实验室标准,1-2个示范点完成应用迁移部署,形成迁移,测试验证和应用的样板。

近期面向网络云、IT云、公有云三大数据中心场景,初期以ARM为主,制定标准基线,协同创新,促进应用适配迁移,与其它路线形成通用计算多样性算力格局。远期要面向GPU、FPGA等异构计算平台,形成全场景多样性计算生态。