谢长生教授：面向AI大模型的高效存储系统研究-DOIT-数据产业媒体与服务平台

编者按：

8月28日，由DOIT传媒主办，以“芯存储 AI未来”为主题的“2024全球闪存峰会（FMW）”在南京金陵饭店盛大开幕。这是全球闪存峰会首次落地南京，除了一场主论坛，峰会围绕着高端存储、企业级SSD、AIGC存储、CXL技术以及行业应用展开；国内外知名的科技企业代表与业界顶尖专家、学者，共同分享闪存技术的应用现状、面临的挑战，探讨合作发展新机遇。

本次峰会得到了中国计算机学会信息存储专委会、中国计算机行业协会信息存储与安全专委会、武汉光电国家研究中心、南京计算机学会、JEDEC固态技术协会和百易存储研究院的鼎力支持。

会上，谢长生教授以“面向AI大模型的高效存储系统研究”为题发表演讲，受到热烈好评和高度赞许。

谢长生教授来自有着“中国存储黄埔军校“之称的华中科技大学武汉光电国家研究中心。他还担任中国计算机行业协会信息存储与安全专委会会长。

他在其演讲中探讨了人工智能（AI）领域的发展以及存储技术面临的挑战，既回顾了信息领域的发展历程，又展望了未来，强调了理论与实践相结合的重要性，展示和分享了的团队他在存储技术方面的最新研究成果。

以下是他的演讲整理，未经本人审定。

在AI领域，全球范围内企业界是领先于学术界的。一个重要的原因是，只有这些大企业才能买得起几万块GPU卡，大学几乎都没有这个财力和人才；70%的AI研究人才都集中在企业，高校只能从思想上或者是原理理论上做一些探索；真正做技术，目前还是企业强。今天我就不讲太多的技术了，只讲我们拿得出手的两三点，但是理论上的一些东西，还想跟大家做一些交流，即使是那些几十年前的话题，根据我的体会，才是最根本的东西。

春节晚会上，韩红唱了一首歌，我很喜欢，歌中说“这世界有那么多人”。的确，这世界有那么多人，我分一下类，有神人，圣人，还有高人，等等这里会场就有很多高人，还有像我们这样千千万万奋斗着、努力着的凡人，共同成就了信息革命大业。

目光深邃的神人：预言了计算的终极理论威力

什么是神人呢？我觉得牛顿、麦克斯韦、爱因斯坦等等。神人的意思是思维维度比我们要高一个层次。想想牛顿三定律一出来，世界的星体运行、宏观运动全部预测的清清楚楚。例如，以前没有发现冥王星，他根据计算，说应该还有一颗星星。后来果然发现有一个。所以说，他就是掌握了上帝的规律，是神人。

麦克斯韦四个方程一列出来，电、磁、光原理都解释清楚了。他预测说有无线电，结果赫兹、马可尼验证存在，这就是掌握了上帝的规律。

前面这两个我还能完全理解，这么简单，这么优美，世界的深刻规律。我只能搞懂狭义相对论，到了爱因斯坦，广义相对论我一点搞不懂了，量子力学我就更搞不懂了。所以这些都是属于神人。

信息领域的神人在哪里？我今天想分享一下信息领域的神人是谁，神到什么程度。

第一个是希尔伯特，数学家，他在1900年召开的世界数学家大会上提出，存不存在解决所有数学问题的一般算法？作为一个大数学家，他从直觉中觉得应该是有，所以他就提出了这么一个实际上的哲学问题。因为，世界上只有数学是真理，其他的都是相对真理。

这可是石破惊天的一问。

为什么这么说呢？就是因为有了这一问，人类才会有计算机，才会有今天的人工智能以及未来更高维度的智能。

所以，这一问就是信息领域最起始的惊天之问，这一问，问出了一个新的世界，一个信息的新的世界。

过了36年，图灵说这个问题有答案了，他构造了一个很简单的图灵机，说可以解决一切可计算的数学问题。没想到这成了人类计算机的理论基础，把这一问完全解决了。

事实上，计算机所有的原理，就是图灵机奠定的。这个的意义其实不比牛顿定律、麦克斯韦的方程差意义小，如果体会起来，就会感觉到他太了不起了。2000年，有一个叫沃夫曼（Stephen Wolfram）的元胞自动机先驱指出，计算机程序可以表达世间的一切规律。他公司的员工后来证明说这个和图灵机是等效的。

图灵机可以表达世间的一切规律，。我是相信这个结论的，但是并没有被完全证实。

从此以后，一波一波的信息浪潮就开始了。我上大学的时候，见到的是大型机，到了快毕业的时候，见到了第一台个人计算机，也就是苹果机，后来是PC机，那时我怀疑自己这个专业是不是学错了，一辈子都要学习新的知识了。

一波一波的浪潮，先是多媒体、互联网、手机、移动互联网、云计算、大数据、区块链、元宇宙，到深度学习、AI大模型和AIGC，走到今天。

回头再看，从大型机到现在不过是50年的时间，但信息技术已经越过了十万八千里，成就巨大，彻底改变了人类的社会生活。

戏说图灵机，追寻简单真理和对AI的启示

尽管如此，我们离图灵语言还很远，因为它可以表达宇宙的一切规律，所以还有很多路可以走，还有很多东西要研究。

再看看我们的神人图灵，他在1950年就发了一篇关于AI论文，叫计算机器与智能，还提出了著名的图灵测试。现在很多人说图灵测试已经过时，其实按照严格的标准来说，还没有过。很多人说1956年的达特茅斯会议是人工智能的起点，其实1950年这位大神就发表了相关论文，他才是人工智能的起点。

孙悟空自以为翻了十万八千里，很伟大，其实还是在如来的手心中。我们到了现在的人工智能，觉得很先进了，其实回头再一看，我们还在图灵的预言之中，还是没有逃脱图灵的手心。

中国是一个“勤奋的学生”，学的很快，每一波浪潮都跟的很紧，所以有一些概念炒的过热，比国外还热。我们在美国的朋友说，美国的区块链、元宇宙、AI好像没有中国这么热。国内现在很热，是一个勤奋的好学生。

但是也要看到，所有这些东西，有哪一样是中国人提出来的？没有，对不对？我们现在0到1非常非常的少，1到10就是非常杰出的工作了。

如何实现从0到1？这个就是我们希望做的，我们的博士论文，大部分都是从10000到10003，为什么呢？可能有10000篇论文都在说人工智能，但只要有三个创新点就可以毕业了，对吧？这就是10000到10003，所以大部分人都在做这个工作。

从0到1，这个是要时间的。

大神图灵是信息领域的牛顿、爱因斯坦。其实他的理论也很简单，就是三个部分，一个是计算部分，就是读写磁头和控制，二是存储，什么是存储呢？就是那个无限长的带子就是存储。三是传输。传输是什么呢？就是磁带的移动。

所以现在所谓的数字技术设施的三个底座，现在的计算、存储、传输，其实早就在图灵机中。

如果对每一个部分进行定义，计算就是有限规则下对数据的序列进行变换，也就是把0变成1，1变成0。这个定义早就有人提出来过。存储和传输是什么呢？这两条是我提出来的：存储是数据的跨越时间的传递，传输是数据跨越空间的传递。这三个简单的动作就表达了一个真理，只要对数据进行计算，存储、传输，就能表达世间的一切规律，当然也包括现在的AI。

理论计算机的能力非常强大，但是实际的计算机到底有多大的能力呢？取决于它可以实现的算力。AI是算力前所未有的吞金怪兽。

回忆一下，这一辈子有哪一个时段大家有说需要算力的？从来没有。如今，大家都去搞算力，搞的现在算力不卖给我们了，逼迫我们自己做自己的GPU卡，GPU卡做不好，就做NPU，做我们的寒武纪。

图灵机对存储的直观启示

图灵机对存储有什么直观的启示？

第一，无限长的带子(即磁带、存储)，意味着无限大的容量。对容量的需求是永无止境的，存储存的就是数据，数据就代表信息，所以必须要有足够大的容量。这是图灵机对我们的第一个启示。

第二，是我们提供数据的速度必须与计算的速度相匹配，否则就会造成等待，直观的解释实际上就是读写头和带子的移动。这里要保证两点，一是读写的速度要快，这个是介质决定的。我们都知道最快的是寄存器，然后是SRAM、DRAM、NVM、SSD、HDD、Tape、光盘等等，越小越快，越大越便宜。现在没有一种介质是又便宜又大的，如果有这么一个理想的介质，那就太爽了，很多存储研究都不用做了。二是传输速度，传输速度既取决于传输介质，例如光传肯定是快于电，同时是越近越快，为什么GPU要把内存做的非常近，就是这个原因，光速每秒30万公里，但是传一米其实也在纳秒级别，还有，越并行越快，越简单越快。

所以，任何存储芯片、存储设备、存储系统都必须有三个部分，一是存储部分，也就是介质部分，二是读写部分，三是传输部分。这个是普遍的原理，对AI大模型存储同样适用。

AI需要什么样的算力

AI大模型的特殊性，也存在普遍性质中。所以在进行AI系统设计的朋友们，不能忘记这些普遍的原理。其实这跟现在导师指导研究生一样。如今老师其实编程都赶不上学生，但老师能站在比较高的角度，能看到方向在哪里。要记住这些普遍的道理，就会很明确体现出：站的很高，前方的路也就看的更清楚。

那么AI需要什么算力呢？这个就是特殊性，就是针对AI的特殊性。所以要读懂计算机系统结构的金科玉律。我们的研究生课程中就用到了这么一本书《计算机系统结构量化方法》，是图灵奖的两位获得者撰写的，这本书是他们获得图灵奖很重要的一个原因。书中展示一个重要的原理，就是common case，就是要加快经常性的事件。

什么是common case？就是耗时间最多的事件。他们俩和其他人打赌，在同样的技术水平下，比如都是两亿个晶体管，或者做一个很强大的CPU但是数量比较少，或者做一个很弱的CPU但是数量很多，打赌说十年以后看结果。后来才发现结果取决于经常性的事件。类似于是几头牛强，还是一大群鸡强。假如在一个大场地全部都铺满了麦子，放一万只鸡，是不是一下子都给吃光了？这个效率高，但是牵出几头牛来，短时间内是怎么也吃不光的，对吧？

那么，AI经常性的事件是什么呢？经常性的事件就是巨大数量的矩阵预算，都是简单的乘和加，它每个都很简单，但是数特别大。所以GPU实际上就是一个功能很弱，但是数量很大这么一个处理器的集合。TPU是另外一个思路，是用硬件来实现简单的加和乘。总的来说，它就是加快经常性的事件，就是大量的矩阵运算。

接下来这些大道理，是我今天着重讲的内容。技术性的知识，很多企业都做的非常好了，我快速讲过去。我只讲我们拿得出手的一点点东西。

大模型有几个层次，一个是算力生态，所以刚才讲了各种各样的PU，如GPU、NPU、TPU，但光是这个裸的处理设备还不行，上面还要一个平台框架，有这样一个平台框架，在上面再做大模型训练，再就是应用。一共分成四个层次。

AI大模型背景和存储容量挑战

AI大模型和AI算力的提升对存储提出了哪些挑战呢？我总结了四点。

一是参数量巨大，对容量提出了巨大而空前的挑战，二是算力的猛增，既是吞吐率猛增，存储墙就更加严重，所以亟待提高性能，这其实是冯诺伊曼瓶颈：内存瓶颈和IO瓶颈，所以现在要建设大内存。原因其实也很简单，就是GPU也好，NPU也好，最好都在内存里存取。假如说要取SSD，还要取硬盘，那就等吧。三是大规模分布式存储，分布式对传输的带宽提出了空前的要求。所以大家要注意，讲存储绝对不要忘记了带宽问题，对性能影响作用非常大，CXL就是要解决这个问题的。复杂的分布式系统，对协议栈和文件系统也提出了新的挑战，所以要在存储软件层面进行变革。因此，容量、性能、带宽、软件是我们要应付的挑战。

大模型的背后是庞大的参数量，现在参数已经达到万亿规模，很快会到十亿规模，能力越强需要的参数量就越大，需要的容量就越大，也需要很多的体系结构。这是一个典型的模型训练的流程，需要硬件来支撑。

应对大模型对存储提出的挑战，可以从三个方面着手：一个是硬核科技。如大内存、快内存、快总线、高速SSD，还有超大容量的硬盘，包括我们现在做的一个超大容量、低成本的玻璃存储等等。二是体系结构。在体系结构上，除了当下主流GPU，有人提出IPU，这个IPU大家可以看一看，那个红色的部分是处理部分，它实际上是真正的PIM，它周围都是存储，所以很快的就把数据在存储里进行处理了，据说效率比GPU更高。三是存储软件，就是高效协议栈和高效文件系统。

硬核科技方面。讲讲我们的团队做的玻璃五维永久光存储技术。这个很有意思，是我们组做过光盘科研的二年级本科生，他是2+2，后两年到英国读本科，再攻读博士。在英国，他发现他的导师在十几年前发现一个现象，就是一束飞秒激光在玻璃上一照就形成一个圆的光栅，光栅的透光率是99%，而且有方向性。透光性很强，是不是可以做多层？在一个两毫米的玻璃上做几百层，然后方向一变，可以做多个BIT，这样算出来的容量不得了，一张盘可以存300多个TB，而现在最大的硬盘才20多个TB。这样他以一人之力就做了一个样机。做完后世界各大媒体都惊呼这个技术太厉害。微软在全球调查了一轮下一代存储，计划取代现有硬盘、磁带、蓝光光盘，看中了这个技术，就投了一笔钱给英国的大学，成立了100多人的大团队做出了很漂亮的成绩。通过他的文章，我们也和他联系上了，结果他说是我的学生。可是本科读书的时候我都没有记住他。我就问他能不能回来？然后他就回来了。回来后建实验室，又配备人才，对先前跟微软合作的内容继续研究、完善，实现了更高的速度，更高的密度。

当然，这项技术取代不了固态盘，取代不了闪存，因为它的速度比较低，但是它的成本非常低，寿命特别长，能耗特别低。对中国而言，我觉得它的价值更大。这个要是做出来的话，全产业链都可以在国内解决。现在正在申请了一个国家重点研发计划。

大模型训练场景存储优化

如何训练场景存储优化。我们做了一点还可以的工作，就是在这个三层上开发了一个全新的文件系统，使IO最快，以最快的速度将数据拉到内存里去。这个文件系统实际上是把存算传做了一个非常好的优化，几乎是全部从零开始写的。系统的具体情况就不介绍了，但有这样一个结论，就是在超级计算机会议上有一个IO500比赛，全是十个节点来比赛。之前华为用自己的文件系统和存储设备，获得了第七名，用了这个文件系统之后，还是华为的存储设备，两次都拿到了冠军，比世界第一名快了11倍。

对AI来说有什么价值呢？它可以以非常快的速度，把IO的瓶颈消除到更小，把数据非常快的拉到内存里去。

大模型推理场景存储优化

略。

总结和展望

AI大模型的发展仍在图灵机的范围之内，后面的路还长的很。实际上，要产生超过人类的这种智慧，就是说用人工智能能够推断出我们现在还没有发现的新规律，我觉得用现在大模型训练是办不到的，因为大模型是把我们已有的所有能力，进行排列组合，然后概率，最后得出结果，你觉得很酷，有非常大的作用。但是它能推出一个新的牛顿定律，推出一个新的麦克斯韦方程？我觉得不可能。

图灵说它能表达世间的一切规律，顺着这个思路走下去，总有一天会达到让它思考，超过人类的智慧的，我坚信这一点。

加的红色的就是我们自己觉得还能拿得出手的一些工作。

由于图灵给指了一条路，所以我们有无尽的前沿，所以追求高纬度的智能就是我们人类的下一个目标。

我的演讲到这里结束。谢谢大家！

。

谢长生教授：面向AI大模型的高效存储系统研究

xiesc

相关推荐

近期文章

热门标签