华为陈默:建设科学数据中心,数据密集型超算正当时

10月12日,在第七届中国科学数据大会上,华为数据存储与机器视觉产品线陈默博士出席并发表《打破认知误区,发展数据密集型超算》的主题报告。报告指出,超算正在从算力服务时代走向数据价值时代,数据密集型超算的创新将持续助力科学数据中心的建设与发展。

1634091241639062158.jpg

华为数据存储与机器视觉产品线陈默博士发表主题报告

随着智能化的加速,AI和大数据成为引领科技创新的热点技术;且随着HPC与AI、大数据技术架构融合,实现交叉科学创新,科学研究由第三范式(计算科学HPC)向第四范式(数据密集型科学HPDA)演进。

HPDA(高性能数据分析)作为HPC+AI+大数据的技术融合,匹配了面向未来数据密集型应用的发展趋势,具体到超算领域定义为数据密集型超算。数据密集型超算是以数据为中心的高性能数据分析平台,具备传统超算、大数据分析及AI分析能力,在为科研及商业应用提供多样性算力的同时,能够基于数据累积,提供高阶数据价值服务,实现“底座不动,数据不迁,绿色高效”。

值得一提的是,近期在兰州举行的超级计算创新联盟年度会议上正式成立了数据密集型超算工作组,数据密集型超算的主张已经在加速形成产业共识。

“我们要加速数据密集型超算产业的发展。首先我们要打破传统意义上关于超算的认知误区。”陈默博士指出。“超算和智算并不是非此即彼的关系,更多是相互渗透和融合。其本质在于超算的算力呈现异构化态势,因此我们认为HPDA全流程计算才是应对数据密集型应用爆发的解决之道。另一个误区是:认为超算等于计算,数据相对没那么重要。而真相是当前新增的超算场景大多是数据密集型,数据越来越重要,80%应用场景数据量是PB级。” 陈默博士表示。

数据存储作为数据底座变得越来越重要,专业的存储底座才是超算中心可持续发展的基石。而过去30年,计算和存储发展并不平衡,有数据表明算力和访存带宽的增长存在剪刀差,算力每十年增长百倍,访存带宽却仅增长八倍。

此外,相较超算发达国家的科学数据中心来说,中国超算的存算比明显偏低,存算比(即存储容量PB与计算算力PFLOPS的比值)普遍低于1:3。譬如,某知名国超,10PFLOPS的算力只配备了不到1PB的存储。而在超算领先的国家,这个数值普遍在1:2以上。高性能计算需要高性能的存储能力相匹配,才能广纳海量应用数据,最大化超算系统使用效率,应对数据密集型超算的挑战。

华为推出的面向数据密集型的HPDA解决方案目前已经在基因测序、石油勘探以及自动驾驶等多个行业领域实现了广泛应用。近日,华西医院、华为、赛乐基因联合发布了多组学数据加速分析平台,全球首次将人类全基因组分析推进至分钟级时代。此外,在全球SKA天文望远镜阵列中,上海天文台与华为合作,搭建了世界首台SKA区域中心原型机核心业务存储系统。在油气勘探领域,华为与中石油东方物探也已完成了单体数据量最大的油气地震勘探数据处理项目。种种迹象表明,数据密集型超算的发展正逢其时、数据密集型超算的实践正当时。

“今天,在呼和浩特,20家国家科学数据中心共聚一堂,我们拥有最核心的数据资产,我们拥有最具价值的海量科研数据,已经具备了发展数据密集型超算的先决条件。”陈默博士在演讲最后表示,“我们呼吁产学研加速协同,形成合力,共同发展国产HPDA系统软件、国产并行文件系统、国产数据存储和数据管理系统等,共同推进并加速数据密集型超算产业及应用技术生态的发展。”