生成式AI给数据存储带来的影响

2022年,全球生成式AI市场规模为101.4亿美元,预计到2030年将达到1159亿美元,复合年增长率 (CAGR) 为35.6%。

但不论AI应用如何发展,都要依赖于大量结构化和非结构化数据的“投喂”。因此,生成式AI模型会生成大量文本、图像、视频等。简单来说,数据分析处理千兆字节的信息,机器学习将数据分析推向PB级(1PB约为5000亿页标准输入文本),而生成式AI则把数字拉到了数百PB甚至更多。

AI对存储的需求也在不断变化。存储厂商开始对AI需求划分优先级,要容量,要性能,要数据传输速度,还有AIOps等等。比如:

1、推动DRAM(动态随机存取存储器)市场发展。AI训练和推理过程中需要频繁访问和处理数据,对内存容量和带宽提出了更高要求。

随着半导体技术的不断发展,DRAM的制程技术快速发展。目前如三星、海力士和美光等已经进入1Znm(10-14nm)制程,并预计将进一步缩小至1αnm(10nm以下)制程。这将显著提升DRAM的存储密度和性能,同时降低功耗和成本。DDR5作为DRAM的新一代标准,已经开始在市场上广泛应用。

2、还有随着AI模型对数据传输速度的要求提高,PCIe接口也在不断迭代。PCIe 5.0和即将到来的PCIe 6.0提供了更高的数据传输速率来满足AI应用的需求。例如,PCIe 5.0的接口带宽性能在某些应用中已经可以翻倍,满足AI对高带宽的需求。目前,市场上的主流厂商们已经在发售PCIe 5.0 SSD。

3、推动CXL技术发展。CXL通过提供高带宽、低延迟的连接,优化数据中心内存,使其能够更好地适应AI时代的需求。生成式AI模型的应用不断发展,对计算资源有着巨大的需求,尤其是在训练和推理过程中。CXL技术通过实现CPU和加速器之间的内存资源共享,推动异构计算的普及,提高AI模型训练和推理的速度。

4、还有QLC(四层单元)和TLC(三层单元)NAND闪存因其较高的存储密度和相对较低的成本,成为生成式AI应用的理想选择。QLC NAND市场规模预计将从2023年的12.9%增长到2027年的46.4%,接近TLC NAND的市场份额 。QLC NAND提供的更大容量密度使其在企业级SSD市场中尤为受欢迎,尤其是在需要大量数据存储的AI服务器环境中。

5、云文件服务也来活了,服务商们用存储在云上的数据集来投喂大模型,但数据需要从其底层对象库实现更快地访存,类似AWS、Azure和谷歌用类似 GPUDirect的方式把数据从S3和Azure Blob存储传送到GPU实例里。

6、数据保护和安全方面,连接聊天机器人接口到企业设备使用时要保护数据集和识别漏洞。特定领域的聊天机器人可以检查组织的攻击面并确定保护它的操作。

一些安全厂商已经开始通过聊天机器人等AI技术让它们更有效地检测和响应恶意软件及处理用户交互。

总之,AI的兴起正在推动存储市场的发展,同时也促使存储技术不断创新以满足AI应用的需求。随着AI技术的不断进步,我们可以预见存储市场将继续扩大,为AI应用提供更强大的支持。2024年11月8日,欢迎大家来到北京,来到中国数据与存储峰会现场,走进AI+存储协同发展论坛,了解更多关于AI与存储的新变化。