郑纬民院士:高标准建设人工智能计算中心,高质量发展我国人工智能产业


12月18日下午,2021东湖国际人工智能高峰论坛在汉召开。会上,中国工程院院士倪光南,中国科学院院士、武汉大学教授龚健雅,中国工程院院士、清华大学计算机系教授郑纬民应邀发言,围绕科技自立自强、人工智能产业发展等主题进行分享。以下为郑纬民院士发言全文。

尊敬的各位领导、各位专家、各位朋友,大家好!我是清华大学计算机系郑纬民,很高兴来参加本次论坛,今天我想分享关于AI算力的几点思考。

第一个思考,中国在人工智能领域相较于其他国家的优势。我们知道人工智能三架马车,大数据、算法、算力。在大数据领域,国内的大数据应用做得更具优势。在算法与算力方面,我们与一些国家还存在差距。在算法上面,一些领先算法面世后,我们具备快速跟进的能力,而在算力上面,差距不容易快速追赶,这方面的落后严重制约了我国AI领域的发展。

第二个思考,关于人工智能四类应用场景。根据场景可以将人工智能这些行业应用分为四大类,第一类应用是图像视频的检测类应用,这个以卷积网络为核心,可以应用到安防、医疗诊断、自动驾驶,城市治理等等。应该说这一类已经很好的应用效果,落地的很好。

第二类决策类应用。以强化学习技术为核心,应用于交通规划、精准行销、个性化推荐。我们比较熟悉的案例是AlphaGo,前几年它在和围棋手比赛当中获胜,因此这一类应用中的部分场景已初见成效。

第三类是自然语言类应用,以Transformer技术为核心,应用于多种语言的翻译,智能交互,文学创作、搜索推荐等等。随着自然语言处理大模型的出现,现在逐步成熟。我想特别强调,自然语言类型这一类应用需要很大的机器和非常大的计算力。

第四类,AI与科学融合应用。人工智能与科学计算深度融合可以解决前沿科学问题,如蛋白质结构的预测,这是AI与科学计算融合的最典型的应用,我们也叫它AI For Science。我们看自然语言模型最近几年发展非常迅猛,这个大模型具备很强的文本生成能力。一个文本数据经过预训练以后产生一个很多参数的一个模型,使用的时候输入一个“人工智能让世界变得”,就出来“更美好”,给定了个起始文本以后,生成的文本把后面没输进来的都生成出来了,因此大模型能做机器回答、情感分析、信息抽取、文案生成、物体识别。

我们说人工智能正快速走向更大模型的发展,所以人工智能技术的推进过程中,处理的问题参数越多,处理效果就越好。因此我们2018年的GPT1有1.1亿的参数,到了2020年7月,GPT3是1750亿个参数。我们的鹏程. 盘古是2000亿个参数,悟道2.0是清华大学做的,有1.75万亿个参数,跟人类越来越接近,应该说每3、4个月它需要的计算机算力又翻了一倍。

我们因此说大模型训练需要更大规模的系统,刚才说了差不多是每3、4个月需要的计算机算力又扩大一倍。

第三个思考问题,HPC超算系统与AI算力系统。我们说存在两类高性能计算机,一类我们觉得是HPC超算系统,它是解决科学与工程计算,比如说天气预报、核聚变模拟、飞行设计等等。它的运算精度是双精度浮点运算,128位加减乘除,因此编程是MPI加C++,或者MPI加Fortran,指标是HPL、HPCG。而AI算力系统就是人工智能计算机,它的解决问题是分类回归、自然语言处理。因此它的运算精度是半精度运算,32位16位甚至是到8位的定点数,编程语言框架也不一样,MindSpore、TensorFlow等等。指标也不一样,有的计算模式也不一样,传统的科学计算、HPC超算以CPU算力为主,人工智能计算机以AI专用处理器为主,一直我都说,我们的神威太湖之光就是典型的HPC,我们鹏城云脑II,武汉人工智能计算中心,这是典型的人工智能计算机。应该说这两类系统还是不一样的,一个解决传统科学计算问题,一个解决人工智能问题。

但是AI For Science一来,使得传统的科学计算跟当前的AI这两个机器要融合,我们看HPC和AI尽管有不同点。但是对访存、高性能网络和存储的需求是类似的,不同精度的计算单元如果能一定程度的复用,就给处理器层面同时支持。AI For Science出现使得HPC程序也包含AI算法,意识到HPC跟AI融合成为刚需需求。因此我们从历史上来看也是,浮点运算在1990年代的时候X86还是个可选件,后续整个会进入到通用CPU。因此我们说,这两个机器融合在一块,既可以解决一切HPC问题,又解决AI问题。我估计三年四年,会出现这样的新型机器。

我说一下鹏城实验室的鹏城云脑,这台机器应该说是解决人工智能问题是非常好的一个机器,现在鹏城云脑II有4096块卡,专门做人工智能问题的。网络设备也是比较好,存储设备也非常好,因此基本是做人工智能问题,但是也初步实现了AI与数字超算融合的这个模式,我们不久的将来,再过两年会出现鹏城云脑III,它会把这两个人工智能问题跟HPC问题结合得更好。

    我国有能力以全栈自主创新的技术构筑人工智能计算中心,我们说做一个人工智能计算机做一个人工智能计算中心,一种办法直接使用西方的成熟技术,还有什么办法呢?在开源技术上进行修改。我们主张从头构建先进的技术能力,从头什么意思呢?就是全是自己做,先进的我们做出来的,硬件也好软件也好,是世界上先进的,这个实际上我们也应该能做得到,我们这个产业界与学术界的协同加速基础技术从头先进,你看我们鸿蒙、欧拉、昇思这些都是华为做的,都是从头开始做且先进的。我们清华大学时序数据库、图计算系统、文件系统MadFS,我觉得也是我们都从头开始做,世界先进水平的。一直到我们对人工智能领域,我们有能力从头做,做先进的。包括IO处理器,操作系统,异构计算框架,AI框架,资源调度引擎,深度学习平台,全栈技术自主创新,我们有信心把它做好。

那我们说第四个思考问题,通过合理的基准测试,以实际的业务性能来评价系统性能。我们说一个人工智能计算机做出来了,怎么来评价它是好的呢还是不好的,因此我们需要一个人工智能算力基准测序程序。用这测试程序来评价这台机器好还是不好,因此我们可以考虑这个问题,公众需要一个简单的指标来回答,我们这个测试软件最后出来的是一个比较简单的,不用太复杂的,就出来一个数据,这个数据越高表示这台机器处理人工智能就越好,因此现在目前传统的高性能机器测试结果与人工智能需要的性能不完全一致,过去HPC有专门的Benchmark,但是没法应用当前的人工智能计算机。因此我们需要做这么一个Benchmark,说起来容易,做起来也很费劲,包括可扩展性,还有反映人工智能问题。

我们清华大学跟鹏城实验室合作,做了一个叫AIPerf这个Benchmark,来测试人工智能计算机性能好还是不好。现在我们公布了两轮AIPerf成为世界的标准,人工智能计算机都用这个来测试,我们在去年跟今年两次在世界上发布,AIPerf的Top500,去年鹏城实验室的鹏城云脑II是第一名,今年还是第一名。我们到现在的不断增加,我们直接用国际化,这是一个Benchmark来测试,另外一个以实际的性能来衡量更重要。    

个思考问题,是武汉人工智能计算中心成为全国人工智能发展树立标杆。武汉人工智能计算中心,科研成果落地了两个产业联盟,一个是遥感测绘产业联盟,还有一个多模态产业联盟,这两个联盟拒绝了很多单位来做这个事儿。一直到100多家企业入驻,孵化出50多个解决方案,一直到赋能行业应用,加速智能升级。另外一个,我们这个武汉人工智能计算中心,吸引了很多人进来,吸引了中科院自动化所、清华大学等多家科研院所落地武汉,因此武汉人工智能计算中心成为了我们的标杆。

个,我有是一个思考问题随着各地算力基础设施发展完善,算力联盟形成统一的调度是大趋势。什么意思呢?就是人工智能算力基础设施我们很多了,我们武汉有、深圳有、西安有、郑州有、成都有,这些机器我们有没有可能把它统一成一个大的算力,把它连起来,变成一个统一调度,不仅是能解决大问题,还有一个对于我们国家来说符合双碳目标,碳达标,碳中和也是有好处的。我们把有些问题尽可能多的到西部去计算,因为西部的能源就好一点,因此这也是一个发展趋势。