2021年全球闪存峰会上,7月30日上午举办的闪存测试与分析论坛,特邀出品人&主持人为华中科技大学“华中卓越学者”特聘教授,博士生导师谢长生教授。
论坛中,前有陈海主任介绍了国家标准测试技术现状和规划方向,接下来华中科技大学武汉光电国家研究中心教授级研究员,吴非教授具体谈到了关于闪存寿命测试标准制定的一些研究和思考,也可以说是未来即将发布的闪存寿命测试标准的前沿预告一起学习!
闪存的形态很多时就存在着很多问题,比如可靠性,比如寿命,如何对闪存进行评测和标准制定呢?
首先,为什么要制定标准?所有信息产业的发展历程是一条线路——第一阶段是解决从无到有的问题,没有CPU就造CPU。第二阶段是满足基本需求,产品能投入应用。第三阶段,掌握核心技术,参与标准制定,最后就是形成完整的产业链。
而形成完整的产业链一定是标准先行。
闪存的发展历程中,早期是各国乱战局面。2006年,由于接口不同,接口命令也不同,彼此之间无法兼容,六家厂商成立联盟——开放式NAND闪存接口,即ONFI。2007年,三星和东芝联手推出了Toggle接口标准。好处是后端使用芯片可以快速开发,真正落地到产品。ONFI和Toggle也就是我们现在用的闪存接口标准。
对国内的存储,从介质到控制器到设备及各类存储软件,我们已经有了一定的生态系统和产业链。围绕从下层到上层的过程也在制定不同的存储类标准,比如云存储标准,闪存标准等。
但协议和标准也存在一些问题。很多来自国外直接翻译,并且为了保证兼容性,我们无法加入自主协议。此外还存在测评体系不完善的问题,说明评价标准还没有评价起来。
比如我们有很多的SSD厂商,如何比较各个盘?这不是简单的0和1的过程,不同的SSD本来应用不一样,一个是消费级的SSD或企业级的SSD,或者军工级的SSD级,一开始针对不同应用时,设计主控的体系架构完全不同,比如用到军工时考虑的最关键因素是环境适应性,这时候需要牺牲性能,降低读写性能保证宽温的特性。闪存介质本身并不完美,因此我们要制定一系列的标准。
闪存是什么样的介质?
对于闪存来讲,增加容量有三种技术:
首先把楼盖高,采用堆叠方式提高容量。
第二是让房间里坐得“人”越多越好,采用了多位方式。
第三是房间里做得“人”越瘦越好,可以放得更多。
用这三种方式提高容量,我们看到的是“人”挤“人”,会导致数据存进去之后彼此之间的串扰增大,导致可靠性降低。
另外一个问题在于闪存的机理决定了会有寿命受限问题。对闪存来讲,存数据靠得是三层,写时把电荷往里写,会导致相关漏洞,存储电荷能力变弱,这是闪存存在的寿命问题。
多值存储时,让阈值电压分布变得很窄。写入次数增多,即PE增加时,阈值电压的分布在展宽,这时面临的问题是,两个数据之间进行交叉,数据会出错,其实是氧化层的磨损和退化造成的。
另外一个问题是,当采用3D方式时,单元间耦合电容变大,这就存在可靠性的问题。
到底如何衡量闪存的寿命?
闪存是数据存储的基石或存储的单元。硬盘唯一的缺点是数据能存就存,不能存就报错。而闪存是渐变退化的方式。何时芯片寿命终止?当PE次数增加时,PE的可靠性越来越低,阈值电压的展宽变大。当错误率随阈值电压漂移增加时,误码率越来越严重,当达到ECC纠错能力时就被认为是寿命终止。
ECC做纠错时有一个最大纠错能力,当达到最大纠错能力时会输出错误数据,这时输出的数据不可用,可以从这个角度判断芯片的寿命终止。
整个误码率最后和哪几个因素有关?和PE有关,但和读的次数也有关系。为什么会这样?从这些方面来看,我们是否有办法对闪存芯片进行快速测试,告诉大家闪存的寿命或属于哪个级别的闪存,给哪一类用户使用,这是我们想要做的一件事情。
我们发现,如果能建立一个规则的模型做这件事情很难,因为本来所呈现出来的所有的数据关系都是非线性关系。第二,不同批次的闪存,不同厂家的闪存所面临的现象完全不一样,没有办法统一建模。最简单的方法是机器学习的方法,可以用黑盒的方式进行表示。
除了编程延迟和擦除延迟可以判断寿命,还可以用原始误码率的总数,原始错误调和平均值等多元化数据的方式。
基于AI对闪存的数据进行预测,首先对闪存芯片进行测试。基于某些固定PE的周期实验获取序列数据集。我们采用的方式是每一个PE周期记录数据。这时候写入什么样的模式,然后采集特征数据集,在这个过程中,特征数据集采用得是刚才分析的数据,然后基于机器学习训练方法进行训练,在训练过程中采用GP(遗传编程)的算法和人工神经网络的方法,其实有更多AI的方面可以尝试。
关于输出,基于AI计算时输出可以选择,在输出过程中选了两类,一类是剩余寿命一类是百分比,进行动态学习的过程。
还有采用的另一种方法是CNN(卷积神经网络)的方法,好处是自学习、自适应、自组织,比较适合用非线性系统进行建模。关于如何对闪存寿命进行评测,我们写了一个基本框架,即对于闪存寿命测试的基本框架。我们也有不同的测试方式,这不一定完善,今天抛出来,希望各个厂商可以给更多指导意见。在试验方法方面,对故障的类型以及耐久力等进行测试,最后会形成一套评估方法给出对于该闪存属于什么样的等级和寿命,给大家做指导性的标准。
今天主要是抛砖引玉大家一起讨论,谢谢各位同行,请批评指正。
(本文未经演讲人审核)