生成式AI来了,它需要更多的算力资源,需要更多的电力资源,也需要更多数据。目前,这些数据主要都存放在机械硬盘上。但在Solidigm看来,考虑到闪存在性能、容量密度和功耗方面的优势,它才是生成式AI的不可或缺的存储技术。
2024数据基础设施技术峰会上,Solidigm亚太区应用工程部总监 翁昀 介绍了Solidigm在闪存介质技术上的优势和在SSD产品上的充分布局,在面对当下最火的生成式AI场景时,其大容量闪存解决方案有多项优势。
人工智能工作流对存储提出的挑战
现在大家都知道,想要大模型有更高质量的输出,就需要高质量的数据,而且是大量的高质量数据。所以,存储系统的第一个作用就是:承担起存储大量数据的能力。
有人预测数据集会呈指数级增长,如此多的数据,说到底还需要服务器和存储来承担,如果还是用机械硬盘,则需要非常多的硬件系统,这对于数据中心空间,能耗和散热都是挑战。
而如果换成SSD闪存存储后,其单位能耗可以输出更高的性能,有助于省电。同时,更高的单盘容量可以减少硬件系统数量,进而减少数据中心机房空间占用,省下更多成本。
从翁昀的介绍中了解到,在AI同样非常火热的北美等市场上,对高容量SSD的需求正在快速上升。企业和数据中心正在寻求大容量的存储解决方案来应对不断增长的AI相关数据。
AI的场景大致分为模型训练和推理两大部分。其中,训练主要在数据中心内部完成,涉及的主要操作包括数据摄取(Ingest)、Checkpoint创建等。
当然,需要归档的数据也都存放在资源充裕的数据中心里。而推理既可以在数据中心内部完成,也可以在近边缘和远边缘端完成。
数据准备的过程主要发生在数据中心和近边缘端,也会有少部分发生在远边缘端。可以说,几乎所有场景中都离不开存储的支持,都需要存储具有处理大量数据的能力,都需要有尽可能高的读写性能。
此时,闪存存储的优势就非常明显。
闪存在人工智能场景上的优势
闪存的性能和容量密度优势,可以用更少的设备提供更高性能和更大容量,这样就可以减少空间占用,简化管理的复杂度。同时,配合它在减少能耗方面的优势,决定了它更适合用在近边缘和远边缘端,不在那么依赖于数据中心的资源。
翁昀非常细致地介绍了SSD,具体而言是Solidigm D5-P5430在人工智能应用领域的相较于机械硬盘的诸多优势。
比如,数据摄取阶段主要看重顺序写性能,而D5-P5430能提供十倍于机械硬盘的顺序写性能。在数据准备阶段主要看重顺序读性能,D5-P5430甚至可以提供高达23倍的性能。训练阶段看中的随机读性能上,D5-P5430的优势达到了4500倍,看来,训练阶段闪存盘是必选项。
Checkpoint是机器学习模型训练阶段的关键技术之一,它会保留训练的中间结果,为了训练能顺利完成,经常需要创建Checkpoint。为了提高创建速度,就需要存储提供更高的顺序写性能,而如果要用Checkpoint进行恢复的话,则需要存储提供更高的顺序读性能。
此外,为了更好地在包括近边缘和远边缘端等更多场景进行推理,闪存盘也是必选项,因为推理阶段对于随机读性能的要求比较高。在对比中,D5-P5430的性能大概达到了机械硬盘的4500倍。
如刚才所说,AI的各个场景中都需要更高性能的存储。说到底,如果没有高性能的存储给训练及时提供数据,那么AI加速器的利用率会有明显降低,会造成浪费。如果没有高性能的存储给推理场景及时提供数据,则会直接影响推理的性能表现。
AI对存储提出的最直接的需求就是更高的性能,同样重要的还有更大的存储容量,这两点它对于未来处理更大规模的训练数据集非常重要。
Solidigm有多种方案可满足AI对于性能和容量的要求
为了做到这两点,Solidigm推荐用户使用CSAL(Cloud storage accelerate layer云存储加速层)这一开源软件来构建存储方案。CSAL是一个开源项目,它使用高性能SSD作为快速缓存和写入缓冲区,优化对NAND的写入,减少写入放大并提升性能。
既然是开源的方案,谁都可以用CSAL。Solidigm推荐用户使用基于SLC的D7-P5810来构建缓存和缓冲区,因为SLC的性能更高,更耐擦写。同时,使用基于QLC的D5-P5336来用作容量层,利用QLC大容量和低成本的优势。
Solidigm这套基于CSAL的方案,既可以提供更高的性能,同时,也能提供更高的容量。对于AI场景而言,它可以为AI加速器提供充足的数据供应,极大提升XPU的利用率。
此外,对于需要相对均衡的读写性能的用户而言,Solidigm推荐使用Solidigm D7-P5520或者D5-P5430这样的方案。而对于对成本比较敏感的用户而言,Solidigm推荐用户使用基于QLC的Solidigm D5-P5336,它可以提供单盘高达61.44TB的数据和更高的性价比。
D5-P5336是Solidigm在2023年发布的产品,是当时市场上最大容量的企业级SSD之一,在构建10PB级别超大容量AI数据平台时,相对于机械硬盘有非常大的优势。
同样是构建10PB的存储资源,如果还是用原来的机械硬盘,则需要1786块3.5英寸的硬盘,而如果换成D5-P5336则只需要343块盘,数量相差了5.2倍。与此同时,需要的服务器和机架数量直接缩减了9倍。
直接对比五年下来的能耗成本,发现基于D5-P5336的方案,电费直接缩减了4.3倍,而整体的TCO也降低了46%,将近一半。无论如何,这都是一套优势非常明显的解决方案。
为了提高AI训练数据的准备速度,金山云对后端对象存储KS3进行了升级。在Solidigm闪存技术的帮助下,从原本的硬盘加Cache的方案升级为纯SSD的配置。升级后,加载40TB原始数据集的时间从535分钟(约9小时)缩短到了11分钟。
结束语
在AI场景中,闪存存储在多个方面都表现出了压倒性的优势,除了初期购置成本略高,剩下的全是优势。无论是在性能、容量密度、功耗方面,还是在空间节省、架构简化、提高XPU利用率等方面都有无可比拟的优势。
对于真正关心生成式AI技术架构的朋友来说,应该会意识到,生成式AI来了,我们需要很多更大容量的SSD。AI时代,大容量SSD正当时!