AIGC让QLC闪存迎来了高光时刻

去年AIGC带动了HBM的市场需求,这是因为高性能GPU显卡都需要用到大量HBM内存,而AIGC的发展需要用到大量显卡。在今年,QLC NAND闪存迎来高光时刻,同样也是因为AIGC。

当前很多人都非常看好AIGC的未来发展,相关个股以英伟达为代表,市值已经突破天际。全球范围内非常多企业都在加大AI相关投资,计算芯片以GPU最具代表性,存储芯片方面就得看NAND闪存存储芯片了,特别是QLC NAND芯片。

在过去6年多时间里,Solidigm在QLC技术、产品和方案上做了很多耕耘,现在受益于AIGC的发展,迎来了QLC闪存发展的好年景。

新建数据中心,QLC SSD更受追捧

Solidigm亚太区销售副总裁倪锦峰介绍称,2024年年初,NAND市场前景尚不明朗,但从2、3月份起,AIGC需求在北美中型客户中迅速增长。

很多企业在新建数据中心时,基本不再考虑纯HDD方案,而是会大量采用SSD。从技术与应用的角度来分析,倪锦峰认为,主要原因有以下四点:

首先,为了提升GPU利用率。随着GPU性能的提升,算力与存力的脱节问题日益突出,SSD方案可以应对这一问题,并且显著提高GPU利用率。

第二,为了满足节能需求。一些地区对功耗有严格限制,SSD替换HDD能节省大量功耗,是推动QLC大规模应用的重要原因。

第三,来自空间优化的需求。新建数据中心需要较长时间,AIGC客户需要在有限的机架空间内部署更多的算力和存力,有密度优势的SSD,特别是QLC SSD更有优势。

第四,边缘计算的需求。计算和存储从数据中心向近边缘和远边缘转移,这些边缘端对功耗和空间有更高要求,而SSD,特别是QLC SSD在这一场景更有优势。

Solidigm从2018年就开始深耕QLC技术,积累了丰富的经验,现在是全球唯一一家有企业验证的61.44TB QLC SSD的公司,产品技术非常成熟,正好赶上这波市场需求大涨。

倪锦峰看好QLC在数据中心市场的前景。如今核心数据中心的存储中,HDD占了约90%,如果能替换10%-20%的HDD,SSD市场会大幅扩大。

AI服务器为什么需要QLC

AIGC的发展需要大量的AI服务器,而AI服务器对存储需求正在快速增加。据了解,AI服务器对存储的需求比普通服务器高2.5到3倍,因为AI需要大量数据流来提高GPU利用率。

QLC可以帮助优化服务器。AIGC服务器的能耗普遍都很高,其他组件想要降功耗很难,而通过使用QLC或大容量SSD替代HDD,可以节省大量能耗和空间。

与很多人想象中不同的是,考虑到延迟的问题,不仅需要在边缘端做AIGC推理,还需要在边缘端进行轻量级训练,QLC SSD在性能、能耗和空间节省上的特性,非常合适用于边缘场景。

如果要说最典型的场景,还是要看数据中心里的AI训练场景。AI的工作流阶段,包含数据摄取阶段、数据准备阶段、模型训练阶段以及推理阶段。

其中,数据摄取阶段主要看顺序写入性能,准备阶段主要看顺序读取性能,训练阶段关注随机读取性能,以及检查点创建和恢复所需的读写性能,推理阶段主要看随机读取能力。

在以上场景中,Solidigm的D5-P5430相较于24TB的SATA HDD的性能有10倍甚至4500倍的差距,是训练过程中的必选方案。

Solidigm的QLC产品技术非常成熟,它所提供的三大系列QLC产品D5-P5430、D5-P5336、D5-P5316各有特色,适用于不同的应用场景。

P5430基于4KB IU,与TLC几乎可以无缝切换;P5336和P5316则基于较大的数据块,需要一定的操作才能更好地发挥QLC的优势。在容量方面,P5336可支持高达61.44TB,并提供多种接口选择,而P5316和P5430则支持高达30.72TB的容量。

具体到AI场景上,如果用户想要最大化XPU利用率,可以使用SLC的P5810作为缓存,加上CSAL软件,配合QLC的P5336使用,既能提供大容量又有性能保证。

想要均衡的读写性能和成本,则可以选择P5520和P5430。想要低成本的方案,则可以选择P5336,它特别适合大块数据的顺序读取和写入应用场景。

金山云原有的数据处理方案KS3使用纯HDD,加载40TB原始数据集需要535分钟完成一次数据准备。引入Solidigm SSD解决方案后,数据准备时间缩短至11分钟,提升了48.6倍。

正睿科技协助研究所构建大容量数据湖,面临着读取性能低、部署时间长和存储成本高等挑战。通过采用SolidigmD5-P5336,正睿科技构建了高密度存储节点,实现单节点100万IOPS和700TB存储空间,显著节省了空间和功耗。

61.44TB大容量企业级SSD,国内外用户接受度有所不同

未来的数据量一定还会持续增长,随着用于AI训练的数据集以及整体数据规模的不断增长,对于大容量存储的需求也肯定会越来越高。这也会让拥有更大容量,更高密度的SSD更受欢迎。

前不久,戴尔科技发布了新一代的NAS文件存储系统PowerScale F910就宣布计划采用61TB的QLC SSD,考虑到市场上仅有Solidigm推出了61TB的QLC SSD,极有可能就是用的这款Solidigm D5-P5336。

一些主流存储厂商也开始支持超大容量SSD,似乎预示着大容量磁盘更容易被普遍接受了。然而,倪锦峰介绍称,目前国外用户比较青睐61.44TB这种容量的企业级SSD,而国内企业用户则倾向于选择其它容量如30TB的盘。

由于某些区域或时间段内,一些国外企业无法获得足够的电力预算,所以,只能选择功耗更低的QLC SSD。同时,传统机房功率有限,难以支持高功耗的GPU系统,但由于机房改造成本太高,用SSD替代HDD来降低功耗反而是更经济的选择。

此外,HDD的年化失效率较高,容量带来更多故障风险,需要更多失效管理,数据恢复成本高。因此,从运营角度看,使用SSD替换HDD也可以节省大量成本。因此,很多国外企业选择更大容量的SSD。

与国外一些地区的用户不同的是,国内企业用户在当前阶段更侧重于GPU的投资。由于GPU在AI计算中的重要性,国内企业在这方面投入了大量资源,对存储的关注还有待提高。

而且,国内企业对功耗和空间的要求相对没有国外那么高。在国内的数据中心环境中,功耗和空间虽然也是考虑因素,但相对来说没有那么紧迫。

国内在AI存储架构和配置方面还在不断完善过程中。国内客户正在逐步接受并研究大容量SSD的部署,这也需要生态系统的准备。硬软件生态系统还需要针对大容量SSD做相应地调整和优化。

倪锦峰也表示,非常希望看到越来越多的国内客户采用大容量SSD,以进一步推动AI等技术的发展。