浪潮存储:挖掘NAND潜力,打造高可靠闪存盘

随着企业数字化转型的快速发展,数据呈现爆发增长趋势,大数据、云计算、AI等新兴技术的发展使得数据来源和结构变得更加复杂多样,基于数据的智慧应用不断涌现,带来了对数据存储质量、传输速度等性能需求的提升。固态硬盘凭借着高性能及其价格的持续优化、绿色节能的特点,成为了IT核心基础设施重要选择,满足数字经济时代对高性能、高可靠、容量、绿色节能的需求。NAND Flash作为SSD闪存盘的基础单元,就像是超市内部的货架,其可靠性是存储系统、数据中心稳定可靠的基础保证,浪潮存储坚持科技创新与工匠精神,结合用户的场景要求,针对NAND Flash可靠性测试进行了全方位的探索和创新,不断打磨优化确保SSD的高可靠性。

NAND Flash是闪存盘的基础单元

提升NAND可靠性 需要闯过“三关”

浪潮存储基于大量的NAND测试数据,在反复探索和实践推理过程中发现了企业级固体硬盘普遍面临三个挑战:

首先,NAND特性会影响数据的可靠性。例如NAND中未写满数据的块因数据保存能力低会导致RBER (Raw Bit Error Rate, 原始比特错误率) 升高,经过大规模NAND测试和数据分析,量化不同阶段影响程度,可以制定出最优方法去减少影响并提升固体硬盘的可靠性。

其次是默认读电压未能最佳适配NAND特性不能满足QoS (Quality of Service,服务质量) 要求。大量实际业务读写场景中5K P/E(Program/Erase, 写入/擦除 )下数据保存能力达到90天时就严重超出了LDPC(Low Density Parity Check Code,低密度奇偶校验) 纠错能力,所以NAND测试需给出最优电压来满足服务质量要求;

第三是NAND厂商提供的Read Retry表如果不够精细,不经实际测试校验检测使用会影响产品的服务质量。

全面NAND Flash测试为产品优化提供精准数据

浪潮存储的研发团队在研究分析全球主流NAND Flash所有特性后,针对NAND Flash测试分析制定了测试流程,并研发了一款测试分析仪,能给为产品的优化提供详细数据,提升SSD的可靠性。

第一步是原厂属性核验,主要核验原厂所提供的Timing、坏块等原厂属性数据的一致性和偏差阈值;第二步是NAND Flash特性极值摸底挖掘,主要是摸底First Read、最优读取电压等属性的极值;第三步是最优读电压的验证和优化以及LLR Table(Log likelihood ratio table,对数似然比表)的生成,考虑到同型号不同批NAND也存在部分细微差异,对同一型号每一批次NAND Flash都要进行充分验证以保证测试数据的准确性,为了更加全面准确的获取测试结果,浪潮存储自主研发了NAND Prober HX9000测试分析仪。

NAND测试流程

NAND基础属性核验

在NAND基础属性测试方面,主要关注Timing时序、坏块分布和功耗测试Power Consumption等测试项目。其中Timing测试中会在不同条件下测试读、写和擦,例如在不同PE、不同温度、不同位置获取最优的Timing值给固件性能调优提供基础数据;坏块测试主要关注坏块分布和坏块率,为固件元数据设计以及性能一致性设计提供数据;功耗测试针对读写擦,包含Single、Mulit-plane操作,获取平均功耗和峰值功耗,峰值功耗是平均功耗的2~3倍,单个峰值持续时间微秒级别, 硬件需要针对电源及噪声做设计,固件可以限制并发,避免大量峰值功耗涌现。

NAND特性极值挖掘

NAND基础特性测试包含首次读、未写满块、空擦除、最优读电压、LLR table等方面内容,浪潮存储正是基于对这些基础特性的极值的探索,持续优化产品,提升固体硬盘的可靠性。

在First Read方面的优化,是考虑闪存颗粒中短时间不读的数据块(Block),第一次读取时会存在BER (Bit Error Rate,比特误码率)会比较高的状况,周期刷新可以有效的预防此类问题、通过测试验证不同温度下的刷新周期和专用命令和pSLC dummy(portion Single Level Cell,部分单层存储单元)命令有效性,刷新优化不同型号NAND周期。

First Read图谱

块(Block)是NAND Flash中可的擦除的最小单位,由若干个可以读写数据的页(Page)组成,这也意味着有些块中会出现只有部分页写满了数据,但是系统为了保存这些页内的数据未对整个块就行擦除,就出现了未写满的块(Open Block), 在固件使用过程中不可避免。

块与页的构成图

相比写满数据的块(Close Block),未写满块的数据保存能力会降低。此部分测试的目标就是要对不同写入量数据块进行不断的写入和擦除,在不同情况下测试读干扰和数据保持能力对可靠性的影响,探索能够保障数据块最强保存能力的最优读电压和最佳的空擦除次数,为FW设计开发优化进行指导,从而实现NAND实现最高的可靠性。

获取最优读电压至关重要,因不准确电压会影响产品的性能吞吐量、QoS和UBER,主要有两种方式可以获取,一种是固定读电压离线获取离线训练,FW使用相对简单,但对NAND一致性要求较高;另一种是动态更新最优读电压,FW要周期性找到最优读电压,缺点是获取过程中对Qos有影响,但通用性更好。根据不同型号的NAND一致性的实际数据,可以选择获取最优读电压的最佳方式。

参数表验证调优

获取最优读电压参数后,仍需要进行多轮的验证和优化,包括基于实际NAND信道生产LLR table,LDPC 软解码的算法可以利用NAND Flash的数据和LLR table数据提升纠错能力和性能。LLR生成的主要过程是通过NAND测试仪器生成LLR相关数据,再采用专用LLR工具生成LLR table,然后将LLR table放到LDPC仿真环境中验证和产品的调优。

LLR table生成过程

为了快速、准确、批量化测试分析NAND Flash各类特性,浪潮自主研发了高度模块化的NAND Prober HX9000测试分析仪,支持SLC/MLC/TLC/QLC等多种存储单元的闪存颗粒的NAND特性测试,具有高精准、简洁易用的用户界面,可以满足进行闪存介质特性分析、稳定性追踪、寿命检测、算法优化和测试等应用,为产品的优化提升了准确性和效率。

浪潮存储采用了行业领先的智能高温控制器和自主创新的P/E 块读写算法并行收集闪存介质的实时状态,支持NAND介质High Level、Low Level指令集,图形化界面,全方位监测介质实时状态,通过开放的API(Application Programming Interface,应用程序接口)接口,为用户提供自定义的介质特性控制、监测和状态数据收集服务,设备购置和拥有成本有效的进行了降低,通过使用NAND测试分析仪,提升了闪存主控芯片的设计、性能优化、介质寿命管控效率,有效提升主控芯片特性、优化SSD整盘性能和可靠性,同时可以用于存储介质的新特性和新材料研究,支撑对传统介质新特性和新介质新特性的测试、收集和分析,为未来产品的开发提供了重要支撑和保障。

NAND测试治具

可靠性提高30%以上

浪潮SSD通过严谨苛刻的测验优化,产品的各项规格指标已经达到业界领先,再通过测试在不同PE、Retention、Read Disturb组合下去找最优电压,使得采用的NAND寿命和可靠性可以提高到30%以上,QoS水平可以达到99.99%,处于业内领先水平,同时做到整个生命周期内性能保持不变,用户整体TCO降低20%以上。

浪潮在存储基础领域不断下沉研发创新,将底层硬件关键核心部件技术与整机系统技术进行结合,发挥闪存的高效、可靠、绿色的优势,结合客户应用场景,以技术创新优化产品方案助力关键行业实现突破应用,全面释放数据价值,加速数字化转型。