AI时代,为什么单盘容量越来越大?

几年前,当Solidigm宣布发布31TB SSD时,有人一脸疑虑地问:如何解决爆炸半径的问题?短短两年后,Solidigm的61TB的盘已经大面积出货,即将到来的122TB的固态盘也备受期待,而造成这种转变的根本原因就是生成式AI。

Solidigm(思得)亚太区应用工程部总监 翁昀

2025年3月27日,在2025人工智能基础设施峰会上,Solidigm(思得)亚太区应用工程部总监 翁昀 分析了AI工作流对于存储的具体需求,也介绍了AI数据中心层面面临的挑战,这两方面都推动了对更大容量QLC SSD的迫切需求。

AI工作流为什么需要更大容量的SSD

翁昀详细分析了AI的典型工作流程,从最开始的数据采集、数据准备、模型训练,再到推理、以及最后的数据归档,每个环节都需要存储的全力支持。

数据采集阶段要从后端的存储,比如从对象存储中把原始数据先读出来,这一过程可能涉及PB级别的顺序写入操作,对存储的写入速度要求很高。而在数据准备阶段,虽然数据规模变成了TB级别,但对顺序读取性能的要求非常高。

训练阶段虽然涉及的数据规模更小了,但这一环节更为复杂和关键。除了要进行模型训练,还要频繁创建和恢复检查点(Checkpoint),还要验证模型质量,还可能需要量化来优化模型性能。

这一环节涉及的数据进一步缩小到了GB级别,但是读写方式发生了变化。对于随机读的性能要求很高,在随机读场景中,SSD相较于HDD硬盘的优势非常明显。HDD硬盘IOPS大概200,而SSD可以轻松做到百万IOPS。

推理过程涉及的数据提升到了TB级,此时最需要的是随机读取的性能,这仍是SSD的强项。最后在归档时,对随机写入性能要求会比较高,从性能角度来讲,SSD优势依然非常明显。

从上述AI流程中可以看到,各个阶段对于存储性能的要求都比较高,而SSD的性能优势都非常明显。但这只能说明AI需要SSD的存储性能,还不能说明为什么需要大容量的SSD。

人们都说,更强的算力、更大的参数规模以及更大的训练数据量是提升AI模型性能的三条主要路径。翁昀分享了来自MIT的数据,为了提升模型表现,数据集的规模正在爆炸性增长,如果SSD的容量不跟着增长,只增加更多机架是不行的。

AI数据中心为什么需要更大容量的企业级SSD

在AI迅猛发展的今天,电力已成为数据中心扩展的关键瓶颈。一些国家和地区甚至由于电力预算不足,导致数据中心建设项目被搁置。

有一种说法,AI算力的极限,最终不是由算力芯片性能决定的,而是由能提供多少电力来决定的。在这样的背景下,SSD,特别是大容量SSD,成为缓解供电压力的重要手段。

大容量SSD通过提升存储密度来缓解供电压力。比如,Solidigm的QLC SSD已经从单盘61TB提升到了122TB,存储密度的提升,意味着在相同的容量下,所需的机架空间和耗电量都将显著减少,不仅可以缓解数据中心供电压力,还能节省机架空间。

与此同时,SSD还能通过提高GPU的利用率,提升现有数据中心计算资源的价值。SSD具备更高吞吐性能,能缓解I/O瓶颈,及时为GPU提供充足的数据。在GPU资源紧张的背景下,SSD能帮助GPU充分发挥其价值。

Ocient是一家数据分析解决方案服务商,原来该公司基于HDD硬盘打造了4.41PB的大数据存储系统,最大功耗超过200千瓦。而当使用了Solidigm的大容量固态盘后,机架数减少到了3个,功耗降低了77%以上,三年可节省高达160万美元的能源开支。

翁昀提到,虽然不同地区的能源瓶颈问题的程度会有差异,时间上可能有先后,但是各地区的能源、资源总是有限的,不可能无限制地往上增长。但大容量SSD为数据中心带来的价值是不会被磨灭的。

大容量QLC SSD在AI时代非常受欢迎

显而易见的事实是,AI火的这两年SSD容量在迅猛提升,去年一度出现了大容量SSD因供不应求出现大幅涨价的情况。Solidigm是最早推出61TB以及122TB的企业级SSD厂商,随后,市场上出现了多款提供这一容量规格的SSD,足见需求之大。

可以说,QLC SSD在AI时代迎来了绝佳的发展机遇。通过全面替代传统的 TLC+HDD的存储架构,不仅简化了存储层级,还能有效降低机架数量、减少存储电力消耗,提升计算能力,打破了HDD面临AI场景时的诸多问题。

翁昀以Solidigm的产品组合为例,详细介绍了在AI工作流当中具体需要什么样的企业级SSD,能清晰看出大容量QLC在其中的重要作用。

在数据摄取和归档阶段阶段,涉及的数据量比较大,且对性能要求也比较高。翁昀认为,Solidigm D5-P5336就非常合适,它基于QLC提供了最高122TB的容量,是传统大容量盘的4倍。

而在数据准备、训练、检查点以及推理阶段,对容量密度要求不高,但对读写性能有较高要求。翁昀认为,基于TLC的Gen5接口的Solidigm D7-PS1010和Solidigm D7-P5520,或者基于QLC的Solidigm D5-5430也能很好地满足需求。

Solidigm D7-PS1010和PS1030是去年发布的性能型SSD,DWPD分别为1和3,支持E3.S和U.2多种规格。相较于Gen4平台,不仅在性能方面实现“两位数级”全面增长,在功耗比上也具备明显优势,已成为AI高性能计算平台中不可或缺的核心部件之一。

刚刚提到的122TB的QLC盘就是Solidigm D5-P5336,它在U.2尺寸放入了一整块晶元的产能,要做到这点对于生产良率和质量控制都极为严苛。Solidigm作为第一家做QLC的企业级SSD厂商,凭借在QLC技术领域的深厚积累才做到了这点。

Solidigm大容量QLC在行业的几个典型用例

德国IPC制造商INONET发布了针对ADAS数据记录与分析的InoNet QuickTray快速更换存储托架。该方案用Solidigm 31TB QLC SSD取代HDD,核心优势在于:延长测试车行驶时间、增加数据收集量、减少返站频率和停机时间。同时,SSD的高抗震性确保了车辆在各种路况下数据记录的稳定性。

伦敦动物学会 (ZSL) 为应对城市化对刺猬等野生动物造成的生存挑战,利用摄像头和 AI进行监测,但每天超1500万张的图像数据量使系统不堪重负。为此,ZSL与 PEAK:AIO合作,部署了结合61TB D5-P5336硬盘和英伟达DGX平台的方案。该方案在ZSL伦敦动物园提供了1.2PB存储,并将图像预处理时间从3分钟缩短至 30 秒,显著加速了ZSL的保护研究工作。

正睿科技是一家服务器和存储硬件开发商,该公司使用了Solidigm大容量QLC SSD打造了一套畜牧业生物基因数据存储解决方案,解决了传统分布式存储痛点,很好地满足了研究所构建单一、大容量数据湖的需求。