谢长生教授:面向AI大模型的高效存储系统研究

编者按:

8月28日,由DOIT传媒主办,以“芯存储 AI未来”为主题的“2024全球闪存峰会(FMW)”在南京金陵饭店盛大开幕。这是全球闪存峰会首次落地南京,除了一场主论坛,峰会围绕着高端存储、企业级SSD、AIGC存储、CXL技术以及行业应用展开;国内外知名的科技企业代表与业界顶尖专家、学者,共同分享闪存技术的应用现状、面临的挑战,探讨合作发展新机遇。

本次峰会得到了中国计算机学会信息存储专委会、中国计算机行业协会信息存储与安全专委会、武汉光电国家研究中心、南京计算机学会、JEDEC固态技术协会和百易存储研究院的鼎力支持。

会上,谢长生教授以“面向AI大模型的高效存储系统研究”为题发表演讲,受到热烈好评和高度赞许。

谢长生教授来自有着“中国存储黄埔军校“之称的华中科技大学武汉光电国家研究中心。他还担任中国计算机行业协会信息存储与安全专委会会长。

他在其演讲中探讨了人工智能(AI)领域的发展以及存储技术面临的挑战,既回顾了信息领域的发展历程,又展望了未来,强调了理论与实践相结合的重要性,展示和分享了的团队他在存储技术方面的最新研究成果。

以下是他的演讲整理,未经本人审定。

在AI领域,全球范围内企业界是领先于学术界的。一个重要的原因是,只有这些大企业才能买得起几万块GPU卡,大学几乎都没有这个财力和人才;70%的AI研究人才都集中在企业,高校只能从思想上或者是原理理论上做一些探索;真正做技术,目前还是企业强。今天我就不讲太多的技术了,只讲我们拿得出手的两三点,但是理论上的一些东西,还想跟大家做一些交流,即使是那些几十年前的话题,根据我的体会,才是最根本的东西。

春节晚会上,韩红唱了一首歌,我很喜欢,歌中说“这世界有那么多人”。的确,这世界有那么多人,我分一下类,有神人,圣人,还有高人,等等这里会场就有很多高人,还有像我们这样千千万万奋斗着、努力着的凡人,共同成就了信息革命大业。

目光深邃的神人:预言了计算的终极理论威力

什么是神人呢?我觉得牛顿、麦克斯韦、爱因斯坦等等。神人的意思是思维维度比我们要高一个层次。想想牛顿三定律一出来,世界的星体运行、宏观运动全部预测的清清楚楚。例如,以前没有发现冥王星,他根据计算,说应该还有一颗星星。后来果然发现有一个。所以说,他就是掌握了上帝的规律,是神人。

麦克斯韦四个方程一列出来,电、磁、光原理都解释清楚了。他预测说有无线电,结果赫兹、马可尼验证存在,这就是掌握了上帝的规律。

前面这两个我还能完全理解,这么简单,这么优美,世界的深刻规律。我只能搞懂狭义相对论,到了爱因斯坦,广义相对论我一点搞不懂了,量子力学我就更搞不懂了。所以这些都是属于神人。

信息领域的神人在哪里?我今天想分享一下信息领域的神人是谁,神到什么程度。

第一个是希尔伯特,数学家,他在1900年召开的世界数学家大会上提出,存不存在解决所有数学问题的一般算法?作为一个大数学家,他从直觉中觉得应该是有,所以他就提出了这么一个实际上的哲学问题。因为,世界上只有数学是真理,其他的都是相对真理。

这可是石破惊天的一问。

为什么这么说呢?就是因为有了这一问,人类才会有计算机,才会有今天的人工智能以及未来更高维度的智能。

所以,这一问就是信息领域最起始的惊天之问,这一问,问出了一个新的世界,一个信息的新的世界。

过了36年,图灵说这个问题有答案了,他构造了一个很简单的图灵机,说可以解决一切可计算的数学问题。没想到这成了人类计算机的理论基础,把这一问完全解决了。

事实上,计算机所有的原理,就是图灵机奠定的。这个的意义其实不比牛顿定律、麦克斯韦的方程差意义小,如果体会起来,就会感觉到他太了不起了。2000年,有一个叫沃夫曼(Stephen Wolfram)的元胞自动机先驱指出,计算机程序可以表达世间的一切规律。他公司的员工后来证明说这个和图灵机是等效的。

图灵机可以表达世间的一切规律,。我是相信这个结论的,但是并没有被完全证实。

从此以后,一波一波的信息浪潮就开始了。我上大学的时候,见到的是大型机,到了快毕业的时候,见到了第一台个人计算机,也就是苹果机,后来是PC机,那时我怀疑自己这个专业是不是学错了,一辈子都要学习新的知识了。

一波一波的浪潮,先是多媒体、互联网、手机、移动互联网、云计算、大数据、区块链、元宇宙,到深度学习、AI大模型和AIGC,走到今天。

回头再看,从大型机到现在不过是50年的时间,但信息技术已经越过了十万八千里,成就巨大,彻底改变了人类的社会生活。

戏说图灵机,追寻简单真理和对AI的启示

尽管如此,我们离图灵语言还很远,因为它可以表达宇宙的一切规律,所以还有很多路可以走,还有很多东西要研究。

再看看我们的神人图灵,他在1950年就发了一篇关于AI论文,叫计算机器与智能,还提出了著名的图灵测试。现在很多人说图灵测试已经过时,其实按照严格的标准来说,还没有过。很多人说1956年的达特茅斯会议是人工智能的起点,其实1950年这位大神就发表了相关论文,他才是人工智能的起点。

孙悟空自以为翻了十万八千里,很伟大,其实还是在如来的手心中。我们到了现在的人工智能,觉得很先进了,其实回头再一看,我们还在图灵的预言之中,还是没有逃脱图灵的手心。

中国是一个“勤奋的学生”,学的很快,每一波浪潮都跟的很紧,所以有一些概念炒的过热,比国外还热。我们在美国的朋友说,美国的区块链、元宇宙、AI好像没有中国这么热。国内现在很热,是一个勤奋的好学生。

但是也要看到,所有这些东西,有哪一样是中国人提出来的?没有,对不对?我们现在0到1非常非常的少,1到10就是非常杰出的工作了。

如何实现从0到1?这个就是我们希望做的,我们的博士论文,大部分都是从10000到10003,为什么呢?可能有10000篇论文都在说人工智能,但只要有三个创新点就可以毕业了,对吧?这就是10000到10003,所以大部分人都在做这个工作。

从0到1,这个是要时间的。

大神图灵是信息领域的牛顿、爱因斯坦。其实他的理论也很简单,就是三个部分,一个是计算部分,就是读写磁头和控制,二是存储,什么是存储呢?就是那个无限长的带子就是存储。三是传输。传输是什么呢?就是磁带的移动。

所以现在所谓的数字技术设施的三个底座,现在的计算、存储、传输,其实早就在图灵机中。

如果对每一个部分进行定义,计算就是有限规则下对数据的序列进行变换,也就是把0变成1,1变成0。这个定义早就有人提出来过。存储和传输是什么呢?这两条是我提出来的:存储是数据的跨越时间的传递,传输是数据跨越空间的传递。这三个简单的动作就表达了一个真理,只要对数据进行计算,存储、传输,就能表达世间的一切规律,当然也包括现在的AI。

理论计算机的能力非常强大,但是实际的计算机到底有多大的能力呢?取决于它可以实现的算力。AI是算力前所未有的吞金怪兽。

回忆一下,这一辈子有哪一个时段大家有说需要算力的?从来没有。如今,大家都去搞算力,搞的现在算力不卖给我们了,逼迫我们自己做自己的GPU卡,GPU卡做不好,就做NPU,做我们的寒武纪。

图灵机对存储的直观启示

图灵机对存储有什么直观的启示?

第一,无限长的带子(即磁带、存储),意味着无限大的容量。对容量的需求是永无止境的,存储存的就是数据,数据就代表信息,所以必须要有足够大的容量。这是图灵机对我们的第一个启示。

第二,是我们提供数据的速度必须与计算的速度相匹配,否则就会造成等待,直观的解释实际上就是读写头和带子的移动。这里要保证两点,一是读写的速度要快,这个是介质决定的。我们都知道最快的是寄存器,然后是SRAM、DRAM、NVM、SSD、HDD、Tape、光盘等等,越小越快,越大越便宜。现在没有一种介质是又便宜又大的,如果有这么一个理想的介质,那就太爽了,很多存储研究都不用做了。二是传输速度,传输速度既取决于传输介质,例如光传肯定是快于电,同时是越近越快,为什么GPU要把内存做的非常近,就是这个原因,光速每秒30万公里,但是传一米其实也在纳秒级别,还有,越并行越快,越简单越快。

所以,任何存储芯片、存储设备、存储系统都必须有三个部分,一是存储部分,也就是介质部分,二是读写部分,三是传输部分。这个是普遍的原理,对AI大模型存储同样适用。

AI需要什么样的算力

AI大模型的特殊性,也存在普遍性质中。所以在进行AI系统设计的朋友们,不能忘记这些普遍的原理。其实这跟现在导师指导研究生一样。如今老师其实编程都赶不上学生,但老师能站在比较高的角度,能看到方向在哪里。要记住这些普遍的道理,就会很明确体现出:站的很高,前方的路也就看的更清楚。

那么AI需要什么算力呢?这个就是特殊性,就是针对AI的特殊性。所以要读懂计算机系统结构的金科玉律。我们的研究生课程中就用到了这么一本书《计算机系统结构量化方法》,是图灵奖的两位获得者撰写的,这本书是他们获得图灵奖很重要的一个原因。书中展示一个重要的原理,就是common case,就是要加快经常性的事件。

什么是common case?就是耗时间最多的事件。他们俩和其他人打赌,在同样的技术水平下,比如都是两亿个晶体管,或者做一个很强大的CPU但是数量比较少,或者做一个很弱的CPU但是数量很多,打赌说十年以后看结果。后来才发现结果取决于经常性的事件。类似于是几头牛强,还是一大群鸡强。假如在一个大场地全部都铺满了麦子,放一万只鸡,是不是一下子都给吃光了?这个效率高,但是牵出几头牛来,短时间内是怎么也吃不光的,对吧?

那么,AI经常性的事件是什么呢?经常性的事件就是巨大数量的矩阵预算,都是简单的乘和加,它每个都很简单,但是数特别大。所以GPU实际上就是一个功能很弱,但是数量很大这么一个处理器的集合。TPU是另外一个思路,是用硬件来实现简单的加和乘。总的来说,它就是加快经常性的事件,就是大量的矩阵运算。

接下来这些大道理,是我今天着重讲的内容。技术性的知识,很多企业都做的非常好了,我快速讲过去。我只讲我们拿得出手的一点点东西。

大模型有几个层次,一个是算力生态,所以刚才讲了各种各样的PU,如GPU、NPU、TPU,但光是这个裸的处理设备还不行,上面还要一个平台框架,有这样一个平台框架,在上面再做大模型训练,再就是应用。一共分成四个层次。

AI大模型背景和存储容量挑战

AI大模型和AI算力的提升对存储提出了哪些挑战呢?我总结了四点。

一是参数量巨大,对容量提出了巨大而空前的挑战,二是算力的猛增,既是吞吐率猛增,存储墙就更加严重,所以亟待提高性能,这其实是冯诺伊曼瓶颈:内存瓶颈和IO瓶颈,所以现在要建设大内存。原因其实也很简单,就是GPU也好,NPU也好,最好都在内存里存取。假如说要取SSD,还要取硬盘,那就等吧。三是大规模分布式存储,分布式对传输的带宽提出了空前的要求。所以大家要注意,讲存储绝对不要忘记了带宽问题,对性能影响作用非常大,CXL就是要解决这个问题的。复杂的分布式系统,对协议栈和文件系统也提出了新的挑战,所以要在存储软件层面进行变革。因此,容量、性能、带宽、软件是我们要应付的挑战。

大模型的背后是庞大的参数量,现在参数已经达到万亿规模,很快会到十亿规模,能力越强需要的参数量就越大,需要的容量就越大,也需要很多的体系结构。这是一个典型的模型训练的流程,需要硬件来支撑。

应对大模型对存储提出的挑战,可以从三个方面着手:一个是硬核科技。如大内存、快内存、快总线、高速SSD,还有超大容量的硬盘,包括我们现在做的一个超大容量、低成本的玻璃存储等等。二是体系结构。在体系结构上,除了当下主流GPU,有人提出IPU,这个IPU大家可以看一看,那个红色的部分是处理部分,它实际上是真正的PIM,它周围都是存储,所以很快的就把数据在存储里进行处理了,据说效率比GPU更高。三是存储软件,就是高效协议栈和高效文件系统。

硬核科技方面。讲讲我们的团队做的玻璃五维永久光存储技术。这个很有意思,是我们组做过光盘科研的二年级本科生,他是2+2,后两年到英国读本科,再攻读博士。在英国,他发现他的导师在十几年前发现一个现象,就是一束飞秒激光在玻璃上一照就形成一个圆的光栅,光栅的透光率是99%,而且有方向性。透光性很强,是不是可以做多层?在一个两毫米的玻璃上做几百层,然后方向一变,可以做多个BIT,这样算出来的容量不得了,一张盘可以存300多个TB,而现在最大的硬盘才20多个TB。这样他以一人之力就做了一个样机。做完后世界各大媒体都惊呼这个技术太厉害。微软在全球调查了一轮下一代存储,计划取代现有硬盘、磁带、蓝光光盘,看中了这个技术,就投了一笔钱给英国的大学,成立了100多人的大团队做出了很漂亮的成绩。通过他的文章,我们也和他联系上了,结果他说是我的学生。可是本科读书的时候我都没有记住他。我就问他能不能回来?然后他就回来了。回来后建实验室,又配备人才,对先前跟微软合作的内容继续研究、完善,实现了更高的速度,更高的密度。

当然,这项技术取代不了固态盘,取代不了闪存,因为它的速度比较低,但是它的成本非常低,寿命特别长,能耗特别低。对中国而言,我觉得它的价值更大。这个要是做出来的话,全产业链都可以在国内解决。现在正在申请了一个国家重点研发计划。

大模型训练场景存储优化

如何训练场景存储优化。我们做了一点还可以的工作,就是在这个三层上开发了一个全新的文件系统,使IO最快,以最快的速度将数据拉到内存里去。这个文件系统实际上是把存算传做了一个非常好的优化,几乎是全部从零开始写的。系统的具体情况就不介绍了,但有这样一个结论,就是在超级计算机会议上有一个IO500比赛,全是十个节点来比赛。之前华为用自己的文件系统和存储设备,获得了第七名,用了这个文件系统之后,还是华为的存储设备,两次都拿到了冠军,比世界第一名快了11倍。

对AI来说有什么价值呢?它可以以非常快的速度,把IO的瓶颈消除到更小,把数据非常快的拉到内存里去。

大模型推理场景存储优化

略。

总结和展望

AI大模型的发展仍在图灵机的范围之内,后面的路还长的很。实际上,要产生超过人类的这种智慧,就是说用人工智能能够推断出我们现在还没有发现的新规律,我觉得用现在大模型训练是办不到的,因为大模型是把我们已有的所有能力,进行排列组合,然后概率,最后得出结果,你觉得很酷,有非常大的作用。但是它能推出一个新的牛顿定律,推出一个新的麦克斯韦方程?我觉得不可能。

图灵说它能表达世间的一切规律,顺着这个思路走下去,总有一天会达到让它思考,超过人类的智慧的,我坚信这一点。

加的红色的就是我们自己觉得还能拿得出手的一些工作。

由于图灵给指了一条路,所以我们有无尽的前沿,所以追求高纬度的智能就是我们人类的下一个目标。

我的演讲到这里结束。谢谢大家!