曙光存储:AI数据存储重在“加速”

AI的入场门槛已经提高,从早期基于机器视觉做人脸识别等小型离散模型,到通用大模型诞生,运行大模型去查询和回答问题,动辄需要上万张卡的算力成本投入,AI算力不再是普通人或初创企业“烧”得起的,早已成为社会共识。

同时在大模型的训练和推理中,承载数据的存力将会如何发展,也成为重要话题。

那么AI数据存储在走向何方?

曙光存储产品事业部运营经理石静总表示,对于AI存储所需的海量数据处理规模,分布式存储架构已经有成熟解决方案。但面对海量小文件时,读、写速度慢,导致的大模型训练效率低、算力空转浪费,是目前存储需要重点解决的问题。

此前,赛迪发布的《2024中国分布式存储市场研究报告》显示,曙光存储在中国AI存储市场的领先地位得到巩固,市场占有率显著提升。国家信息中心发布的《智能算力产业发展白皮书》中特别推介了曙光存储的“智存”产品,指出产品专为人工智能特定场景设计,能够帮助企业用户有效地利用其数据资产,加速推动智能转型和创新。

在2024全球闪存峰会上,曙光存储凭借其在AI与闪存融合应用领域的创新实践,荣获了“年度AI与闪存融合应用创新奖”。

此外,赛迪发布的《2024中国分布式存储市场研究报告》也显示,曙光存储在中国AI存储市场的领先地位得到巩固,市场占有率显著提升。国家信息中心发布的《智能算力产业发展白皮书》中特别推介了曙光存储的“智存”产品,指出产品专为人工智能特定场景设计,能够帮助企业用户有效地利用其数据资产推动智能转型和创新。

存储加速如何提升AI整体表现?

曙光存储的技术实力在AI领域的应用中得到了充分展示,尤其是在支持复杂模型训练和加速研发进程方面表现卓越。以下两个实际案例深入说明了曙光存储解决方案如何为用户提供支持。

第一个案例是智元机器人。智元机器人致力于开发下一代通用机器人,专注于智能制造和科研领域的应用。2023年智元机器人仅用时半年,即推出首款名为“远征A1”的人形智能机器人,算力高达200TOPS。而就在近期,智元机器人更是一口气发布“远征”与“灵犀”两大家族共计五款商用人形机器人新品,并在多个场景开启商用量产,惊人速度震撼业内。

在如此快速迭代的背后,除了算力与算法平台的支撑,更少不了“先进存力”的加持。智元机器人共部署了2套曙光分布式存储系统——1套IPB可用全闪分布式系统,可提供超过500GB/s的读带宽,极大优化了AI模型训练速度;1套2.7PB分布式对象存储,单桶/单节点5W IOPS/OPS 10GB性能可实现非结构化数据的高速存储与归档。

整个训推过程中,除凭借快训练、快归档等优势,曙光存储不仅加速了智元机器人的研发进程,还显著降低了整体的运营成本。此外,曙光存储在智元项目中还特别强调智能运维和故障预测功能,利用AI技术提前识别潜在故障,允许维护团队提前响应,极大地减少了系统中断的风险,提高了业务连续性。

还有用户体验方面。通过智能调度和资源优化,智元机器人在执行多任务时能保持高效率,提供流畅的用户交互体验。这种预测性维护和高度自动化的运维策略不仅增强了系统的稳定性,还确保了机器人在前端的最佳性能表现。

另一个案例是某头部大模型厂商。曙光存储提供了全闪存节点来支持其大规模的AI模型训练。这些节点配置了高性能的存储系统,配合使用PyTorch编译环境,特别针对客户需求对编译时间的敏感需求进行了优化。通过这种定制化的解决方案,曙光存储不仅显著缩短了编译过程,而且满足了客户要求的120万IOPS的高性能需求,保证客户能够进行高效率的模型训练和开发,大幅提高了开发流程的效率,支持客户在AI技术研究和产品开发方面保持行业领先。

全路径加速AI

曙光存储推出的ParaStor分布式全闪存储,单个节点能提供高达150GB/s的带宽,每秒钟能够处理高达320万个I/O请求,在助力AI应用方面能够加速整体表现提升超过20倍,这来自于曙光存储最强的数据底座与最佳的AI应用加速套件。

曙光的AI应用加速套件通过五层加速技术来极大缩短AI应用中的I/O流程,使得处理速度大幅提升,具体包括:

1.  本地内存加速:通过将热点数据缓存至计算节点的CPU内存中,利用内存的低延迟特性加速数据访问,延时降至纳秒级别。

2.  Burst Buffer层级:进一步利用GPU服务器本地的NVMe盘存储关键数据,减少数据跨网络访问的需求,提高了数据处理的局部性和速度。

3.  网络层加速:使用RDMA或RoCE技术优化网络带宽利用率,保证网络层不成为性能瓶颈。

4.  存储层加速:全面发挥NVMe全闪存的高性能特点,提高数据存储和访问的速度。

5.  XDS智能加速:通过如XDS技术,允许GPU直接访问存储系统,减少CPU介入,降低延迟,提升效率。

最强的数据底座:该策略旨在充分发挥硬件的极致性能。尤其是在硬件优化方面,ParaStor整合了最新的高速网络技术与NVMe SSD闪存介质,确保数据传输和存储速度的最大化。例如,使用400G NDR IB卡或RoCE网络技术,配合U.2 SSD,实现了高速网络与存储介质的完美配合。

安全,AI数据存储的底线

石静在近期的一次专访中深入分析了当前的大模型趋势,也指出,许多企业已不再从头开始构建大模型,而是选择使用已经训练好的基础或通用大模型,并根据自己的应用需求进行调整,形成专为特定行业设计的模型。在这个过程中,存储系统的灵活性、性能优化,以及数据安全性对提升业务效率起到了关键作用。

比如,曙光存储最初帮助用户构建存储资源池承载各类应用,之后随着业务的扩展,发现通过调整存储系统来适应不同应用的具体需求,可以显著提升性能。于是曙光存储分析了用户应用的I/O特性,包括文件大小、访问模式(随机或顺序)及I/O块的大小,并据此调整存储参数,使得不同应用的运行效率得到了几倍的提升。不仅优化了客户的业务流程,也极大地缩短了项目的上线时间,展现出曙光存储解决方案的实际价值。

另一个案例是在自动驾驶领域。数据处理过程中,必须精确控制哪些信息可以被保留和使用,例如车牌和轨迹坐标信息,并且要对涉及普通公众的敏感信息进行合规处理。

曙光存储系统提供高效地数据安全管理功能,能够与客户的数据安全策略对接,确保数据的安全性和访问权限的严格控制。同时通过整合存储账户管理权限与客户的账户权限体系,确保数据处理的合规性和安全性。

最后

随着AIGC技术的持续进步和企业对高效AI解决方案的需求日益增加,曙光存储的技术创新和市场应用将继续为用户提供价值,推动AI技术的商业化和实际应用。这不仅加强了企业的市场竞争力,也为整个行业的技术进步和创新发展作出了重要贡献。