谢长生教授:存储技术发展的驱动力及生态系统

2021年11月23日,由百易传媒(DOIT)主办,主题为“数据觉醒”的第十七届中国数据与存储峰会,首次在线上打造数据存储周,专注业内技术与未来发展新趋势!

大会特别邀请到中国计算机行业协会信息存储与安全专委会会长,华中科技大学武汉光电国家实验室教授谢长生发表名为《存储技术发展的驱动力及生态系统》的主题演讲,详细介绍了数字化的哲学奠基和科学奠基,并指出存储技术的三大驱动力以及存储生态系统的完善方式等。

以下内容根据速记整理,未经本人审定。

听众朋友大家好,我今天讲的题目是“存储技术发展的驱动力及生态系统”。

数字化的哲学奠基与科学奠基

首先我们从峰会的两个关键词讲起,一个是数据,一个是存储。讲到数据我们首先看到6000年前伏羲提出了八卦图,一长横代表一,两短横代表零,所以上面一一就是代表天,下面零零代表地,这就是数字化的思想原点。

老子说“一生二,二生三,三生万物。”这就实际上表达了数字可以表达万物的思想。在2500年前的希腊数学家、哲学家毕达哥拉斯说“万物皆数”,也就是说宇宙的一切规律皆可以由数来表达,大家记住这个结论,就是万物皆数,这就是数字化的哲学奠基。

2000多年过去了,我们的信息表达都还不是数字化,比如文字、声音、电影、照相、电视、摄像这都不是数字化,我们还要等待几位伟人的到来,这就是奠定了我们数字化科学基础的四位大师,一个是莱布尼茨的二进制,一个是乔治·布尔的布尔代数,再就是香农的信息论还有开关电路理论以及图灵的图灵机。

这个图灵机是一个理论能力极强的智能模型,他本来是为回答一个希尔伯特的世纪之问而提出的,希尔伯特在1900年世界数学家大会上提了一个问题,他说:“存不存在解决所有数学问题的一般算法?”,1936年图灵发表了划时代的论文,构建了一个图灵机,就是一个无限长的带子在一个纸篓上对带子进行读和写,在有限的规则上把零变成一,一变成零,这个图灵机就代表着一种智能自动化的实现手段就是计算,就是在有限的规则下对数据进行序列变换,就是这个可以解决一切数学问题,所以这个能力非常强大。

图灵机实际上分为三个部分,第一个就是处理部分——对读写头进行控制,第二就是存储部分就是那个无限长的带子,第三个就是传出部分是带子的移动,这个模型实际上能力特别强大,已经超出图灵的想象,图灵说“他可以解决一切数学问题!”但是实际上他是可以解决更多的问题。

元胞自动机领域的一位大师Stephen Wolfram写了一本书叫《一种新科学》,里面说“300年来,科学建立在数学的基础上,而今后的科学将建立在计算机程序的基础上,计算机程序也就是计算,可以表达宇宙的一切规律!”

他构造了这样一个元胞自动机,简单的规则可以产生复杂的现象,而且我们可以从这个上理解我们的DNA上有人的这个简单规则,但是按照顺序生长下去,他就会把一个受精卵逐渐变成一个完整的人,而且从年轻到老去都可以用计算机模拟出来,这就是我们的数字生命。

其结论是计算程序也就是计算可以表达世间的一切规律!所以Wolfram是从元胞自动机得出了这个结论,但他的同事证明“元胞自动机和图灵机是等效的!”所以图灵机的理论能力极强叫表达世间一切规律!这个科学得到的结论和哲学得到的是一样的,就是万物皆数!宇宙的一切规律皆可以有数来表达,这就是科学给数字化定下的一个遥远的终点,我们现在还在路上。

数字时代开始,我们目前才走了四步

从图灵机开始,数字时代真正开始,我们目前才走了四步,而其重点是可以表达宇宙的一切规律,那还远的很,所以存储的第一个驱动力就是数字化进程步伐的加快,那么数字化1.0我称其为多媒体驱动的,就是我们敲命令行到可以表达图像、图片、视频就是信息形式多媒体化;

数字化2.0是互联网推动的,那么有无线和有线互联网,我们把社交这种关系通过网络数字化我们就有微信,我们把商品交易通过网络数字化就有了淘宝,这样信息大量流动产生大量的数据,这是第二个数据爆发点;

数字化3.0是由是由物联网推动的,他的特征是由人产生数据到物产生数据,那物比人多得多是不是,这样数据量又会大爆发,这是第三个爆发点;

数字化4.0就是现在特别热的元宇宙,元宇宙推动数字化更进一步向前发展,它的特征是我们信息空间本来只有物理空间一直过去,比如我们拍张照片,拍张视频这是物理空间变成了数据,然后把它映射到信息空间,但元宇宙很多东西都是世界不存在,由我们人脑构想出来的虚拟空间,把这个思想构成数据以后映射到空间中去,这样就形成我们数据的第四个爆发点。

很多人说数据化后面应该是智能化,那么智能化在哪里呢,实际上我认为智能化是包括在数据化之中的,刚开始比较弱而已,然后逐渐从弱智变成比较聪明到现在是很聪明,可以识别图像人脸,最近由于深度学习算法的流行,所以大家对智能化看的比较重,实际上智能化这个步伐还在继续深入,智能化是隐含在这个数字化之中的,元宇宙时间点提前了,因为各大公司现在都涌入元宇宙这个领域,其标志性事件就是Facebook把它的名字改成了Meta。

元宇宙时间点提前,将改写IDC数据量增长预测

元宇宙是一种动态的交互式的、沉浸式的全景图像,会引起数据量的大爆发,比高清视频数据量大很多倍,所以存储需求呈跳跃式增长,那么一个平行于人脑的独立的虚拟空间将是元宇宙发展的高级阶段。

我们这样假设一个场景,你与元宇宙中的虚拟人自由的交谈,他是具有智慧的,那么这种就是元宇宙一个高级阶段,就是他不依赖于人脑,而自己在虚拟空间有他的智慧,这还有一段时间。

那存储的驱动力二是主流介质的变更。硬盘从早期1956年的大硬盘到现在的高容量硬盘经历了水平记录,中间一个巨磁阻效应还得了诺贝尔奖,垂直记录还有现在的瓦记录还有即将出现的热辅助磁记录,容量提高了这个倍数是好几个数量级。

1984年发明的NAND闪存目前成为手机、笔记本电脑的主流介质,而且金融数据中心固态盘,大量固态盘采用,到2026年固态盘每单位容量的成本就和硬盘持平,所以形成一类主流介质。第三类主流介质就是现在非易失的存储器,那么现在有相变、磁变、阻变三种,大批量进入商业化的就是第一种叫 3D XPoint技术,现在已经开始进入市场,不过价格现在还比较贵。

新的介质具有带来体系结构和软件的改变。我们教科书上的老三样,cache、DRAM、 硬盘,现在变成了多个层,固态盘和非易失固态盘也进来了,还有非易失内存,这样存储结构得到很大变革,而且介质变快,相对来说其软件占比比较大,硬盘的软件开销只占0.3%,而NVM DIMM这个新介质,软件开销占到94%,这是UCSD的研究结果,所以我们现在由于介质的改变带来整体软件改变。

驱动力三是冷数据的挑战。冷数据在过去还不觉得是个压力,但是现在各大互联网公司、数据中心感觉这个冷数据压力越来越大。什么是冷数据,我们举个例子就是我们每天微信朋友圈发照片,每天的腾讯那儿是10亿张,10亿张上去就有很多人点击,访问量就是百亿次的,这是热数据,但是第二天访问量马上下来就变冷了,一个星期以后就没什么人看了,这就是冷数据。

但冷数据你不能丢,日积月累下来就是一个巨大的量,结果这些公司发现这个冷数据现在越来越承受不了,冷数据是Cold Data,他既是大数据(Big Data),又是保持时间很长的长数据(Long Data),带来成本挑战、能耗挑战和寿命挑战,我们现在大部分用的硬盘,一个数据中心可能有几十万个硬盘甚至上百万的硬盘,这样消耗巨大的能量,而且硬盘发热,还要用很大的电力来冷却,寿命也只有五年,隔五年就要换一批,所以这个成本,迁移成本非常非常大。

这种挑战如何应对?我们现在一个是磁带,但我们中国发展光存储。新的光存储有4种,一种是蓝光技术上发展叫AD现在有300G和500G两种,还有第二是全息光存储。第三种是超分辨光存储,就是把光点缩小到以前的1/10,这样的容量就会大大提高,而且可以记多层,这个理论上可以达到500TB的容量。还有现在在玻璃上用多维的方式来记录,他是用飞马激光打上一个微小的微纳结构,这样每张盘可以存300个T,而寿命几乎是无限的,这样是一个永久保存技术,能很好解决冷数据问题。

如何构建完善的存储技术生态系统?

我国存储产业取得很大进步,国内市场已占据主导,但生态还比较脆弱,主要问题有三个。

第一完全没有硬盘工业,硬盘全部依赖进口,大量数据一旦硬盘进口出问题是非常严重的,所以这是非常脆弱的一个点;

第二点我们在国际标准上基本没有话语权,比如说NVMe这种标准我们是没有话语权,我们在通讯领域有很多话语权,在存储领域没有,在评测领域也没有,比如说我们的存储大厂都想挤入Gartler的存储魔力象限,企业要打榜存储性能评测SPC-1才觉得我们得到承认,还有我们质量的检测要通过美国的IOL交互器实验室得到测试才能得到承认。

如何解决,第一我提出用光、电来代磁,我们要大力发展NAND固态盘产业和光存储产业,因为我们现在长江存储可以生产闪存芯片了,现在产能还非常小,但要扩大产能满足国内需要,我们发展固态盘完全有能力的这是存热数据。冷数据国外是磁带,我们现在要发展刚才说的新一代光盘,用新一代光盘做成我们大容量的光盘库,就可以解决冷数据问题。第三我们要建成自己的评测体系,形成权威第三方机构,至少我们自己的企业要认可我们的评测机构、评测的结果,最后是想要世界上的企业也认可我们的评测结果,这才是我们生态要完善的这样一个局面。

结论

宇宙的一切皆可以由数来表达!这就是我们数字化一个非常终极的目标。我们存储是数据的载体,因此,发展机会也是无限的。存储技术有三种驱动力,第一是数字化进程的步伐加快;第二是主流存储介质的更新换代;第三是冷数据的挑战。

我们要完善我们存储生态链三条措施。第一用电光代磁;第二加强引领性核心技术的研发,掌握标准领域的话语权;第三加强评测体系建设,争取评测领域的话语权,我的报告到此为止,谢谢大家!