7月20-21日,2018全球存储半导体大会暨全球闪存技术峰会(简称“GSS大会”)在武汉光谷拉开帷幕,大会以“构建闪存新生态”为主题,针对全球闪存和存储半导体的产业新生态、行业新热点、企业新发展,进行全面分析与解读。
在闪存可靠性与测试技术分论坛中,论坛主席华中科技大学武汉光电国家实验室吴非博士在开场时指出,数据是基础,存储是基石,闪存作为数据存储的主流介质,其可靠性技术与测试技术不可或缺,同时为数据存储的安全性和可靠性保驾护航。现在我们来听一听学术界,国内外测试机构专家学者,以及企业代表为我们带来的精彩内容。
山东大学信息科学与工程学院陈杰智教授发表了题为《3D NAND闪存存储器的可靠性》的主题演讲。先介绍了后摩尔时代NAND闪存存储器现状,然后结合自身经验梳理了从系统,电路,到器件、材料等方面去考量3D NAND的高可靠性以及建立可靠性体系的重要性。陈教授指出,NAND从平面到立体的架构确实是存储密度与性能的巨大飞跃,但高可靠性3D闪存存储器研发需要基于其特殊工艺和设计建立从材料到系统一整套体系,包括解决可靠性测量,器件仿真、TCAD仿真模型,控制可靠性缺陷等问题。
关于NAND从2D到3D的可靠性话题。我们所关心的可靠性在两个层面,用户层面看的是价格、容量和寿命,性能,但这只是冰山一角。实际上从底层公司研发层面来看,最难的是工艺制程,虽然在工艺控制上3D NAND将平面光刻机技术核心环节去掉了,但成膜过程中很多环节难以把控,其中还涉及NAND良品率的问题。高可靠性的的核心课题还包括:
Data Retention(数据保存特性):来源于TNL/IPD中存在缺陷相关的”导电通道”,能使阈值电压降低,发生Vth负向偏移;
Program Disturb(编程干扰):第一部分发生于同一BL上的存储单元,在VPASS电场下电子借由漏电流通过隧穿层进入浮栅层,使阈值电压发生正向偏移。另外一部分发生于同一WL上的存储单元,低电场漏电流的误写入将带来Vth正向偏移;
Read Disturb(写入干扰):来源于VPASS下的TNL漏电流,能使阈值电压发生正向偏移,VPASS电压越大错误率会越高;
Intel-cell interference:随着存储单元尺寸变小,单元之间的寄生电容耦合越来越强,导致了存储单元之间的干涉效应ICI);
Random Telegraph Noise:电荷隧穿层中存在的缺陷会造成RTN噪声,导致读出数据的准确率降低,并使存储单元阈值电压分布变宽。
国家计算机质监中心存储测评实验室阳小珊主任发表了《闪存的质量特性及测试与评价》的主题演讲,指出测试是保障产品质量的重要手段,是发现产品问题、提升产品质量的重要方法。他还介绍了闪存质量与产业链的关系,闪存及其测试的现状,闪存的质量特性,测试与评价。
在谈及闪存产品的测试现状时,阳小珊主任表示,国内的重点是国家认监委和认可委管理,标准化和专业化较强,管控国内数千家实验室。
而测试所需的人、机、料、法、环是主要的因素,但闪存领域相关产品测试还是不太乐观。首先是测试人员稀缺,包括华中科技大学出来的学生做测试,或者企业里面做测试的,都非常少。再就是机器,目前的重点是国内闪存的测试工具和设备不太完善。有相关包括芯片的专业底层设备都是非常昂贵的。而在环境方面,实验室服务平台并未建立,国内很多企业产品做出来,可能需要送到国外去测试。
IOL实验室高级工程师, 数据中心技术专家David Woolf发表了《NVMe合规性和互操作性计划》的主题演讲。David首先介绍了与UNH(新罕布什尔大学
)-IOL(InterOperability Laboratory)的NVMe集成商项目,并指出了其测试要求,工具以及实验室未来发展。
目前IL互操作性和一致性相关要求如图:
在这里David特别指出,近期UNH-IOL与华中科技大学合作,首次在中国落地NVMe互操作性测试,有15家企业参加了NVMe SSD测试。
Memblaze首席架构师孙清涛分享了如何验证闪存特性并进行协同设计保证闪存数据存储的可靠性。孙总讲述了NAND自身的特点,而Memblaze针对这一问题构建了Memblaze NAND特性测试平台。
Memblaze NAND特性测试包括性能,电压分布,阈值电压矫正,Read Retry优选,Read Disturb,未满Block问题,NAND故障诊断工具以及固件协同设计。
Memblaze在固件设计过程中采用了多核处理器,每个处理器有自己的任务,通过验证平台发现了以上参数的重要性。受益有两个方面,一是性能受益,二是寿命受益,也形成了硬判决,软判决两种能力。我们希望所有的错误在硬判决区域搞定,这样性能是最好的。而软判决涉及到寿命,单纯从控制性能来说还是希望在这时候有寿命受益。基于这个验证平台的测试结果,Memblaze得到了好的预期,也证实了测试平台在项目初期完成的重要性。
紫光德瑞孙丽华博士分享了如何构建可编程的闪存仿真系统,围绕闪存控制器,利用可编程的闪存系统验证闪存控制器,完善闪存控制器的设计。闪存仿真模块是受主机控制中心控制的,主机控制中心通过发送相应的配制,完成对接口的配制,以及闪存内部异常状态模拟,然后去完成相应的命令执行。由于需要模拟各种各样的闪存,模拟闪存命令,执行闪存的状态,闪存仿真模块在后台拥有强大的数据库支持。
市场上主流SSD控制器从功能上分为前中后三部分,后端就是闪存控制器。闪存控制器的好坏,决定了整个SSD控制器的成败,我们针对闪存控制器介绍可编程闪存仿真系统,以及其中最重要的部分——基于仿真学习。
闪存仿真模块中最为重要的是基于深度学习的比特翻转发生器,这需要大量的原始数据去训练,比如收集不同厂商颗粒,在不同条件下包括不同PE,不同retention,不同配制类型,或不同read cell等条件下真实错误分配情况,然后建立深度学习模型,通过数据调整参数反复训练模型,最终达到能够预测结果的目的,能够大大提高我们的验证效率,并降低验证成本。
Trust-tek公司技术支持经理蔣伸億分享了新RWSW(真实世界存储工作负载)测试方法论——通过软硬件测试新方法探索负载测试的分析。
真实世界工作负载是在一个特定时间区间内,部署的服务器里,特定软件堆栈级别上发生的IO流集合,是由许多IO流和队列深度的不断变化组合而成。IO流是通过实际应用程序,操作系统,抽象软件以及使用者行为而产生,在经过软硬件堆栈时发生改变,因此真实工作负载每一秒都会有很大的变化。
我们先来了解一下真实工作负载的重要性。我们希望透过真实业务的获取,了解真实业务的压力如何发生,并分析出真实工作负载和合成的差异点在哪里,通过差异点的发现提升存储系统的性能。
这是软件的堆叠,这些IO在不断改变,主要是因为在整体存储系统服务器上的架构有软件堆叠。从上面的应用层自上而下必须经过很长的路径,包括通过软件堆叠层,然后到达硬件层有HBA卡,再分配到存储装置(可能是固态盘或者PCI盘)。分包到固态盘的时候经过的路径很多,而为了让系统做快速返回,我们会有分析压缩率或者重复写入的速率。
并且这么多路径从单块逐个分包下去,还有不同的软件进行功能处理。包括会做加密,或者是重复数据闪存,或者是压缩,这些行为都会对模块大小造成很大影响。所以真实工作负载非常复杂,这也是为什么盘在真实应用执行的时候会造成性能降低的问题。