中国存储系统的先行者 ——记中国工程院新当选院士、清华大学计算机系教授郑纬民

郑纬民

走起路来健步如飞,上起课来激情澎湃,谈起研究来妙语连珠……你或许不太相信,年过七旬、白发苍苍的郑纬民现在仍是课题组里每天最早到达实验室的那个人。组里的师生笑称郑老师是位“模范生”,每次见他不是在实验室就是在会议现场,研讨、讲课、debug、攻克技术难关……在过去的几十年里,郑纬民唯一的爱好就是搞研发、带学生。

1965年,郑纬民考入清华大学自动控制系时,计算机还只是自动控制系的一个专业,算法、存储、系统等基础理论的研究,国内还比较落后,没有人能准确判断中国的计算机事业将有怎样的未来。

改革开放后,郑纬民先后前往美国、英国从事分布操作系统与函数语言编译研究。回国后聚焦计算机并行/分布处理研究,并率先在高性能存储领域深耕发力。

2016年,郑纬民及其团队参与的项目斩获有着世界超级计算应用领域“诺贝尔奖”之称的“戈登·贝尔奖”,实现了我国高性能计算应用成果在该奖项上零的突破。

2019年,郑纬民当选中国工程院院士

在存储系统领域,从一张白纸到世界领先,中国花了不到半个世纪,这一近乎奇迹的“逆袭”,郑纬民功不可没。

存储系统背后的团队

在足球场大小的机房里,密密麻麻存放着高速运转的设备,一台台超级计算机正在执行快速计算任务。“超级计算机”,顾名思义,拥有超大的数据存储容量和超快速的数据处理速度,其中所涉及的技术远比目之所及的庞大机器更为复杂。绕不过去的核心技术就有集群计算机设计、CPU设计、网格计算、高性能存储等等,层出不穷的难题摆在计算机系高性能计算研究所时任所长郑纬民面前,作为计算机系统结构学科带头人的他,毫不犹豫地将这些技术难题作为研究所的主攻方向,带领团队“啃最难啃的骨头”。

当整个行业醉心于研究各类复杂精巧的算法时,郑纬民敏锐地意识到数据存储技术将面临巨大挑战。上个世纪90年代起,他在国内率先开展网格存储系统关键技术研究,并一再打破国际存储公司的技术垄断。“计算、互联、存储三大部件组成一个大信息系统,存储越来越成为其中的核心问题。当下,存储已成为关系到国计民生和国家战略安全的关键信息基础设施之一。”郑纬民说。怎样才能迅速、完整且长久地保留数据?怎样才能在即使部分硬盘被损坏的情况下确保数据安全完整?郑纬民带领整个团队,逐一攻破存储系统的可扩展性、可靠性等一道道难关。

但他们并没有止步于此。在此基础上,能否用更少的空间储存更多的数据?有别于通过降低分辨率等直接“打包”压缩的方法,郑纬民及其团队提出了新的思路。“通常而言,备份越多,数据越不容易灭失,但需占用大量存储空间。比如一部电影,拷贝三份分别存储,那就多花费了200%的空间。但如果把电影切割成若干段进行存储,例如存储32段电影内容,并同时生成16段校验码,当任何一个部分出错时,可以根据校验码进行纠正,则只需要多花费存储校验码的空间,也就是多增加33%左右的空间。”郑纬民说。

这一思路为节约硬盘存储空间打开了新的大门,然而最困难的是要实现数据存储和校验的实时同步。数据受网络环境的影响很可能产生错误,对原数据进行校验非常重要,使得再次使用这部分数据时,可以重新计算校验码并与之前的进行对比验证。郑纬民说:“在将数据写入硬盘时,要对原数据计算校验码并一同传输,在很长一段时间内,国际上认为这两者是不可能实时完成的。”而郑纬民完成了这一创举。他研制的自维护存储系统,实现了数据存储和校验的实时同步,整体技术达到国际领先水平,目前已被成功应用到审计、公安、油田、电信、教育等行业及部门。

郑纬民还创造性地提出了另一思路——社区共享。如果能够实现社区共享,则不需要重复存储,这就是现在流行的云盘技术的基本原理。这一技术的多种应用现在已“飞入寻常百姓家”,而在21世纪初,仍处于“摸着石头过河”的探索状态。郑纬民承担的项目通过网格技术将各高校的资源串联,存储一份,即可全网下载。依托基于社区概念的网络数据共享和存储技术,郑纬民主持研制了国内首个云计算平台“Tsinghua Cloud”,并对外提供服务。

2016年,郑纬民获何梁何利基金科学与技术进步奖

凭借这些积累和突破,郑纬民拿下了国家科技进步一等奖1次、二等奖2次,国家发明二等奖1次,2016年获何梁何利基金科学与技术进步奖,2016年、2017年他的团队连续两次获得“戈登·贝尔奖”。2018年,郑纬民成为首位中国存储终身成就奖获得者。

铺就迈向世界一流之路

当地时间2016年11月17日,在美国盐湖城召开的全球超级计算大会(SC2016)上,“千万核可扩展大气动力学全隐式模拟”联合成果获得“戈登·贝尔”奖,实现了该奖创办30年来我国在此大奖上零的突破。2017年清华团队再次借助“神威·太湖之光”超级计算机,成功设计实现了高可扩展性的非线性地震模拟工具,实现了对唐山大地震发生过程的高分辨率精确模拟,再次斩获“戈登·贝尔”奖。两次“捧杯”,郑纬民及其团队作出了突出贡献。

迈向世界一流并非一日之功。时间回到改革开放之初,一切从零起步。那时的郑纬民如饥似渴地阅读国外前沿论文,参加各类同行会议,到美国、英国访学,在各地合作开展科研项目,满脑子想着怎样才能跟上世界的步伐。开始培养学生后,他经常创造各种机会让学生外出交流、参会,想方设法让学生能接触到最前沿的技术、与一线“大咖”交流切磋。

郑纬民在交流中

郑纬民鼓励学生“走出去”,也不断邀请顶尖学者“走进来”。现任清华大学计算机系副系主任武永卫教授初到郑纬民的项目组时,便参与到“中国教育科研网格”的项目研发中。他清楚记得,项目完成后,郑纬民特地邀请当时这一领域富有声誉的美国团队来校交流,逐一将成果演示给对方看。“郑老师不仅把项目做出来,还要演示、证明给别人看,这种开放的心态实属难得。”武永卫说。

渐渐地,清华计算机系凭借不断提升的综合实力和积极开放的交流合作在国际上崭露头角,开始真正进入到世界网格存储和高性能计算的核心圈子。

2007年,郑纬民第一次在国际高性能计算领域顶级会议FAST(USENIX Conference on File and Storage Technologies)上发表文章,这是中国大陆学者独立完成的首篇FAST论文。而今,FAST会议每年甄选的二十篇文章中几乎都有中国学者的身影,郑纬民团队也已在FAST会议上发表多篇论文。

清华学生超算团队获国际大学生超级计算机竞赛(SC19)总冠军

而在不久前落幕的2019国际大学生超级计算机竞赛(SC19)上,由清华大学计算机系组建的清华大学学生超算团队再次夺得总决赛总冠军,这是清华大学在三大国际大学生超算竞赛中获得的第12个冠军。

在高性能计算和网格存储领域,从“开眼看世界”到国际领先,一条迈向世界一流的道路在郑纬民的努力下已渐次铺成。

“做事,就要做有用的事”

“郑老师常对我们说,在论文摘要里就得把你要研究的问题写清楚,要点出这个问题的研究意义在哪里。”清华大学计算机系副教授翟季冬曾是郑纬民的博士生,翟季冬至今记得,郑老师在指导他做本科毕业设计时,就一直强调“问题意识”。

武永卫回忆起博士后阶段跟着郑老师做项目的日子时说,他听的最多的就是“要做有用的事,要想明白对谁有用,能解决什么问题”。

“做事,就要做有用的事”,郑纬民团队的每位成员始终遵循这一要求,写论文、做项目都以问题为导向,做出来的产品也要切实服务于现实需求。近期,郑纬民带领团队多次赴内蒙古调研,发掘网格存储和高性能计算在各类现实场景中的应用。

“做对国民经济有用的事”,郑纬民用实实在在的技术突破践行着他的承诺。“现在很多人觉得多发论文最重要,不是说这些没有价值,而是真正做研究,要能让理论落地,不能在纸上空比划。做事,还是得务实一些。”郑纬民说。

“我最自豪的,是培养出了优秀的年轻人”

每年的院士资格评定都设有材料展示环节,每位候选人要在有限的时间里阐述自己在该领域的成就。“郑老师在展示的幻灯片里列出了七八项成就,他专门把讲授的国家精品课程《计算机系统结构》列了上去,他一直觉得把课讲好是非常重要的事。”武永卫说。

《计算机系统结构》这门课贯穿了郑纬民的整个教学生涯,直到退休前,郑纬民都在给学生上这门必修课。课程的课件和教案每年都在更新,讲授的内容始终走在领域前沿。截至目前,郑纬民已编写和出版计算机系统结构领域的教材近10本。

“郑老师上课非常有激情,也很幽默,他总能把复杂的知识点讲得清楚明白,让学生都听得懂、感兴趣。”从本科起就跟着郑纬民做科研的计算机系教授陈文光,至今还记得近二十年前上课时老师打过的比方:“郑老师将初期的大型向量计算机比作‘象群’,将集群计算机中的小芯片群比作‘蚁群’,非常形象。”当时慕名来上课的还有许多外系的学生,因为郑纬民深入浅出的讲述,他们对计算机系统产生了强烈的探索兴趣。

如今,郑纬民培养的很多学生也站在了大学的讲台上,或幽默或通俗地为同学们讲授计算机的基础理论和前沿知识。“不自觉中,我平时上课也会跟郑老师一样,多举一些通俗易懂的例子,课堂氛围也相对轻松活跃。”陈文光说。

郑纬民在讲解区块链技术原理

“我们给学生讲课,至少在课堂上要让他明白70%,剩下30%有兴趣的可以再去学习研究。学生连课都听不懂,怎么可能对科研感兴趣?”郑纬民说。郑纬民至今还在全国各地讲课,从计算机系统结构讲到并行计算,再到区块链技术,一如既往地深入浅出。但凡开课,一座难求。

郑纬民向来鼓励学生做交叉研究。搜狗公司CEO王小川曾是郑纬民的硕士生,在读期间他突发奇想,提出想借助计算机做基因拼接计算。当时整个团队仍以并行处理的研究为主,这一想法看起来有些格格不入,但郑纬民却非常鼓励,他说:“基因很复杂,如果你要做这个题,你得先去把生物专业的基础书读透。”在郑纬民的鼓励和指导下,王小川立即做起了自己当时最感兴趣的研究。

郑纬民看人很准,且极为信任学生。高性能计算研究所现任所长薛巍副教授本是清华电机系的学生,常来计算机系实验室做运算处理。“我看这个小伙子很勤奋,周末都没日没夜在做研究,就跟他说可以来我们组做科研,于是他就来了。”郑纬民说。恰逢计算机系与地学系合作天气预报研究项目,郑纬民便督促他“把气象学本科生教材全部学一遍”。一边做一边学,而今的薛巍已然是天气预报领域的专家了。

当记者问起迄今为止最自豪的成就时,郑纬民没有丝毫犹豫,他的答案既不是评上院士,也不是拿下什么奖项,而是,“我培养的学生们都很优秀。”

为祖国健康工作五十年

郑纬民在清华读书时,时任校长蒋南翔先生提出的口号“为祖国健康工作五十年”响彻校园的各个角落,至今仍是清华人对国家的承诺。

郑纬民始终记得这个承诺。退休后的他仍然铆足干劲,为祖国的计算机事业奋力工作。在团队师生的印象里,郑纬民永远精力充沛,早上八点就来到实验室,中午吃完饭接着工作,项目组的进展他了如指掌,时不时还要各地出差、参加会议、主持讲座。翟季冬看着郑老师退休后工作还这么拼,直言道:“老师比我们还拼,做学生的哪敢不努力!”

郑纬民总跟学生说:“做计算机系统结构方面的研究,要做好吃苦的准备。”每天工作十几小时是组里师生的常态,短期内论文产出也不高,急功近利者几乎不敢踏入这个领域。郑纬民一直鼓励学生沉下心去做研究。“我们要做实事,才能成事业。”郑纬民说。

郑纬民还是个热心肠,计算机系大大小小的事都放在心上。无论是给学生指点科研方向,还是帮年轻教师一起打磨论文,甚至是帮助系里师生处理家庭琐事,但凡找他帮忙,他都竭尽所能。可以说,郑纬民的大半生都与清华计算机系紧紧相连。中国网格存储“从零到一,再到无穷大”,郑纬民是见证者,更是领航者。正如武永卫所言:“计算机系像是他的孩子。”他给予了这个“孩子”充足的养分,又慈爱地陪伴她每一步的成长。

2020年是郑纬民为祖国健康工作的第五十个年头,但他还有忙不完的工作。随着人工智能、区块链等新技术的兴起,作为基础支撑的高性能计算、并行处理、存储系统等核心技术愈发重要,以计算机为运算工具的跨学科研究不断涌现。与此同时,国际竞争进一步加剧,破除技术壁垒任重道远。“我们要做的还有很多。”郑纬民说。

每次学生提出新设想、开发新项目的时候,郑纬民总说的一句话是“我看行”。关于中国高性能计算的未来,他也不假思索地说了句:“我看行!”

相关阅读:2018中国存储终身成就奖获得者郑纬民教授当选中国工程院院士!