谢长生教授：AI高端存储的发展逻辑与技术特征-DOIT-数据产业媒体与服务平台

【编者按：由DOIT传媒主办，中国计算机学会信息存储专委会、武汉光电国家研究中心、百易存储研究院支持的2024中国数据与存储峰会，2024年11月8日，在北京新云南皇冠假日圆满举行。

在当天下午召开的“高端存储与分布式全闪创新”分论坛上，中国计算机行业协会信息存储与安全专委会会长、华中科技大学武汉光电国家研究中心谢长生教授，以“AI高端存储的发展逻辑与技术特征”发表精彩分享。

以下内容根据演讲速记整理，未经本人审定。】

谢长生：大家下午好，今天聊一聊我关对AI高端存储系统的发展逻辑与技术特征的一些思考。

图灵机表达了宇宙的一切规律

是谁描绘了信息革命的千里江山图？

我在博士生的课程上讲了十几年，但是在行业性的会很少讲，这是信息革命的起点，缘由是一个德国数学家希尔伯特在1900年的世界数学家大会上提出的一个哲学问题（提出问题比解决问题其实更重要）：存不存在解决所有数学问题的一般算法？他感觉到是有，但不确定。

过了36年，图灵为了回答这个问题构造了一个图灵机，这个图灵机其实很简单，一个无限长的带子，还有一个磁头，要么是写0，要么写1，使它发生变化，这个带子左右移动，图灵证实说，就这样的机器，所有的数学问题都可以理论上解决出来。

为了回答这个问题的操作，一下子就开启了信息革命的原点，所有后面的故事就此开始。

后来又有一个先驱，一个很有名的元胞自动机科学家企业家，说他能证明图灵机模型可以表达宇宙的一切规律。这个问题虽然没有像解决数学问题一样得到证明，但我很相信这个道理的。

图灵机有三个部分，一个是计算部分，读写头机器控制，第二部分是存储，无限长的带子，上面都是数据，这就是存储，带子的移动就是传输。

现在回过头来看，人家早就说明了，整个数字信息设施就是这三样东西，现在所有数据中心跑不出这三个东西，计算设施、存储设施，传输设施（网络）。

定义一下这三项内容。计算就是在有限规则下对数据的序列变换；存储是数据跨越时间的传递，老子写一本书，跨越两千多年传到我们，这就是跨越时间的传输，打个电话就是空间的传输。这三件事情现在简称算力、存力、运力，它们表达了一个简单的真理，只要对数据进行计算存储传输，就能表达宇宙的一切规律。

这是非常伟大的发现。

图灵机既是一个伟大的发现，又是一个伟大的发明，就这么几个简单的动作可以表达世界的一切客观规律，构造成了计算存储传输基础性的发明，用一种开天辟地的方式开启了信息时代，用计算来开辟一个和人脑智力不一样的模式，但是可以表达世界运行规律。

图灵机可以表达世间的一切规律，这是它的理论能力；但是到底能表达多少，就看算力到没到那个点。从计算机系统结构的来看有两大措施，在集成电路技术体系下，一个是并行，一个是更多的角度，最早有指令级的并行，流水线、多发射，数据并行，还有多核，同构多核到现在的异构多核，然后就是大规模的并行，云计算中心、超算中心、智算中心等等，计算力就是一个系统上跑，这个就是计算原理所决定的，如果算力无穷大，那就什么事都能干。

从最开始的大型机到小型机到PC，刚开始的PC只能处理文字，后来图像、视频，这是算力在进步。算力要靠数据来喂，要传输，要存储，所以就发展了互联网、智能手机和移动互联网、云计算等。

在AI这个点上，人们觉得现在很先进，但其实后面的路还长着呢，后面是宇宙一切规律，离那个点还远的很。所以图灵是一眼望到了宇宙的一切规律，现在正在AI这个时间点上。

信息革命一波波的浪潮，目前都还在图灵的手掌心当中。刚才说了这么多成就，其实就像是孙悟空翻的跟头十万八千里，停下来看还在图灵的手掌心中，还是在图灵的模式下工作。图灵早就认识到计算机是可以思考，所以他1950年发文，计算机学习智能，提出了著名的图灵测试，通过图灵测试才算完成人工智能。

图灵机是可以表达宇宙的一切规律，人类的智能是关于思维的规律，在宇宙一切规律之内，所以图灵机可以表达人类思维。

关于图灵机和AI的逻辑

从逻辑可以推断，AGI（通用人工智能）可以表达人类的思维，可以达到人类的水平。好几个大佬都预测在2027年左右就可以做到跟人类一样聪明，这是通用人工智能。

图灵机可以表达宇宙的一切规律，那么存不存在于高于人类的智慧？其实比比皆是，很多东西人根本就想不出来，其实就存在于我们的视野当中。任何一个生物的细胞很多机制，从微观来看那种设计简直是太精巧了，可人的智慧设计不了那个东西，有人觉得这是上帝的安排。如果是靠进化出来的，这个其实是很难理解的，所以很多人说是有比人类更高智慧的存在。

图灵机按照这个进度一定可以超越人类智能，这也是符合逻辑三段论的，这就是AI中的超级人工智能，叫做ASI。一个大集合是宇宙的一切规律，通用人工智能其实是一小部分，参与人工智能就是又一个更大的集，很多人都说人类智慧是不可能被机器超越的，有一个著名的企业家和马斯克辩论，说人类有创造力，机器不可能超越，马斯克说其实人类很多事情做得非常愚蠢，好端端的一个地球老是打来打去，没有一个好办法避免战争。

图灵的成就抵得上10个诺贝尔奖

图灵的成就开启了一个信息时代。

我认为图灵的成就比得上十个诺贝尔奖，图灵启动了信息革命。晶体管和激光二极管是做传输的，巨磁阻效应（硬盘）是做存储的，很多科学家都是在图灵的框架下得到诺贝尔奖，今年的诺贝尔奖两个都是用人工智能得了物理学奖和化学奖，所以图灵的成就绝对顶十个诺贝尔奖。

AI需要什么样的算力？

图灵奖的获得者派乐森讲了一个重要的原理，就是Make the common case fast就是加快经常性事件，也就是耗时最多/频度最高的事件。15年前，两个大学教授辩论说以后发展计算机，像单个处理器发展的是强而少好，还是弱而多好，类似推断发展几头牛好还是发展一大群鸡好。这就要看经常性的事件是什么，AI的经常性事件就是它的Commo case是什么，是巨大数量的矩阵运算，加成运算占它的绝大部分。以前是单个CPU非常强的那条路好，如今每个计算单元都很弱，但数量巨大，这适应了AI的计算的Commo case经常性的事件，所以GPU适用于这个。

经常性事件就是这样的，像一头牛拉一个很重要的东西，他很厉害，但假如说你一场地都是稻子，放一千只鸡去吃，肯定比牛吃得快。所以现在GPU就像一大群鸡，速度就特别快，这就是GPU或者是TPU、MPU一类的算力成为计算的主力的原因，CPU反而只成了一个调度而已。

AI的基础设施带来巨大的商机，存储能分多少？

AI的三个要素是算法、算力和数据。

AI是算力的吞金猛兽，所以GPU为代表的算力设施急剧增长，成为商业的最大赢家，现在一搞就是万卡，马斯克搞一个超算中心就是10万卡，要花几十亿美金才能建一个，国内外都是如此，所以英伟达赚翻了；国内不论是浪潮还是华为，他们卖服务器也赚了很多。

存储的商机在哪里？好像并没有得到与算力成正比的增长。

一是要加强AI真正的应用。现在各地大力建设智算中心，但很多都是政绩工程，建好后是不是用了，不得而知。假如真正落实，存储的商机会大大增加。国外的存算比比国内高很多，国内因为还没有用起来，没有足够多数据存。算力越高，它的存储也要跟着高，现在叫做以存配算，以存强算，也有很多积极的技术，有些技术做得很好，特别是用存储加强计算的能力，有很多的研究。

第二个因素是数据，大模型的参数量激增，AIGC几行字就可以产生一个视频，所以它的数量也会剧增；算法也会带来机会，可以以存来代算，所以以存强算、以存代算都可以扩大存储的需求。只要加强这些，存储就有商业机会。

图灵机对存储的直观启示

图灵机对存储的直观启示是什么？

第一，它要有足够大的容量，就那个无限长的带子，预示将来对容量有无止境的需求，因为数据量在不断的增加，现在AI训练就靠要数据，所以足够大的容量是从图灵机上就可以看出来的。

第二，提供数据机的速度必须与计算速度相匹配，就是磁头在0变1、1变0的时候所需的数据可以到达该到的地方，所以存储必须有两点来保证，一是传输速度，光比电快这是介质特性，越近就越快、越并行越快、越简单越快，GPU、显存离的非常近就是这个原因；二是读写速度要快，从寄存器到SRAN到高带宽的DRAM和HBM或者SSD、HDD到光盘等，算力、存力、运力必须平衡。所以设计存储系统一定要遵循最基本的道理。

有时候看问题，把图灵机一看就知道，原来技术发展大思路是很简单的，就是要做到算力运力存力要平衡。

AI高端存储的设计原则

高端存储就是与AI算力相平衡的存储。

以前AI算力就是以GPU为核心的算力，平衡就是能供得上就是高端存储，那么设计原则还是加快经常性的事件。这里有两个技巧，一是要辨识现在AI的算力对存力的需求特征，要仔细的分辨哪些算法对IO的行为，经常性事件的辨识，二是设法加强存力，存力理论上就是性能和容量这两个方面，

把握好了这个原则再设计存储系统，大方向就不会错。但是存力如何衡量？比如说带宽IOPS这些简单的指标能不能反映存储系统用于真实使用时候性能就高，比如达到了什么百万级的IOPS，是不是一个指标就可以反映用到AI训练和AI大模型真正就是最快的？不一定。

真正反应存储系统性能的是运行实际程序的存算平衡度，要去拿一个真实的AI的负载评价存储系统，无论是戴尔的，是浪潮的，还是华为的，就跑一个正确的程序，看谁先做完，光谈带宽可能个别的高，真正来比这个。所以建立一个AI存储的benchmark至关重要。

AI存储的Benchmark如何建立？

来看看Benchmark如何建立。要挑选有代表性的、真实的程序，把它合在一起做成一个Benchmark。这个还面临一个困难：AI的进步太快，前年还在说AIGC，去年讲大模型，明年还不知道变成什么。应对这些不一样的模式，挑选的应用变化太快。但总要有一个开头，所以从去年开始成立了一个协会，得图灵奖的戴维牵头联合谷歌、斯坦福大学和哈佛大学发起一个ML Commons协会，选了一些真实、典型的AI负载，把运行成果系统拿过来看谁领先。

AI大模型发展迅猛，助力各行各业

AI大模型应用发展很迅猛，对算力的提升和对存储都提出挑战，一个是参数量越来越大，对存储的容量提出了空前挑战，二是算力的猛增使它吞吐率猛增，存储墙更加严重，现在存储墙有内存瓶颈和IO瓶颈两个，如何克服，三是大模型的分布式对传输的带宽和延迟提出空前的要求，四是复杂的分布式算存传结构对协议栈、文件系统等提出了新的挑战，需要在存储软件层面上进行变革。

AI高端存储的技术特征

高端存储技术特征，一是存力与算力的特征要匹配和平衡，图灵机已经说清楚了，二是分级存储的调度策略与AI算法紧密相关，二是性能型的存储容量急剧扩大，对大内存和大显存需求越来越大，要容量型存储价格、能耗要急剧降低。

大模型强大能力的背后是庞大的参数量。大模型参数量以年均400%复合增长，大模型能力和模型参数量成正相关，例如，GPT-4模型的参数规模超过万亿，很快会到10万亿。

蓬勃发展的AI大模型迫切需求存储技术的革新。如何应对AI大模型对存储提出的挑战？

一个是硬核科技。国内有一些突破，长江存储是值得骄傲的一个企业，如果没有长江存储，国内所有的介质和数据都还在国外，别看系统做得挺好，介质中硬盘没有一块国产、磁带没有一盘是国产。好在有了长江存储，而且他们有自己的技术优势，水平应该说和国际水平很接近，这是硬核科技，不是一个创业公司可以做的。今年9月，在长江存储的支撑下，新存科技和华科大合作推出3D堆叠相变存储器，将国外做到4层后做不下去的类似Xpoint技术做到了8层，容量也实现了64Gb，这个产品比NAND要快，而且容量还大、擦写次数更多、寿命更还长。

二是容量突破。华中科技大学在一片光盘上存10个T的技术，现在在实验室已经实现了，有待于产业化，在体系结构上和存储软件上也有很多技术要做，同时在研发超大容量、低成本的五维玻璃存储，在一个玻璃盘片存10个PB，可以永久保存，这个也是在华中科技大学实验室进行，微软现在跟着在做。对中国而言，价值更大，全产业链都可在国内解决。

其他方面，如华中科技大学团队和华为合作的一个文件系统，能把华为的全闪存阵列数据能很快提到内存中，因此两次获得国际IO500十节点榜单第一，这个文件系统关键的技术是学校首先提出。推出之前，华为用自己的文件系统获得第七名，采用后提升为第一，而且比第二名快了十几倍。

总体而言，数据存取的效率成为影响大模型训练性能的核心要素之一，计算硬件的快速发展需求更高的存储性能，而计算和存储模块发展存在鸿沟。

总结

AI的发展仍在图灵机的范畴之内，并遵循其普遍规律。

神经网络并不是说真正结构上跟大脑神经一样，而是完全不一样但可以表达的东西，这就是它的厉害之处，技术发展仍在图灵机的范围之内，但可以做到比人类智慧更高。不过它并不是一个最佳的途径，人脑才消耗多大一点能量，而它要数十亿投资建设数据中心，耗费巨大的电能才能完成。

蓬勃发展的AI大模型迫切需要存储技术的革新，高端存储就是与AI算力相平衡的存储；现在以存强算，以存代算会带来很多商机，设计逻辑就是加强经常性事件，以及性能型存储和容量型存储。

谢长生教授：AI高端存储的发展逻辑与技术特征

xiesc

相关推荐

近期文章

热门标签