移动云分享面向万卡AI集群场景的高性能文件存储实践

先进存力的高性能、高可靠、数据安全等能力可保障 AI 系统稳定运行,为 AI 大模型的发展提供了强大的存储支撑。作为特邀嘉宾,中国移动云能力中心云存储系统架构师闫林林在2024中国数据与存储峰会“大模型数据存储应用论坛”分享了移动云面向万卡 AI 集群场景的高性能文件存储相关探索与实践。

以下为演讲实录:

今天跟大家分享的主题是面向万卡AI集群场景的高性能文件存储。为什么要面向万卡AI集群?背景这两年整体的趋势都是AI。

一、AI场景的存储需求与挑战

首先,这两年一个主体的背景,更多我们关心的就是先进存力的建设,先进存力两点,一个是国家近两年制定了一系列宏观政策,千亿AI基础设施的发展,一个就是工信部的180号文件,存储总量超过1800EB,先进存储容量达到30%以上。而在重点行业重点数据覆盖率达到百分之百。另一个制造行业正在促进整个先进存力的快速发展,美国大概是1.1TB/GFlops,中国0.42,中国的存力相对不足,存在重算力轻存力。当前先进存力占比24%,智算先进存力要求30%,所以未来几年先进存力应该会有长足的发展。

接下来从两个视角,宏观视角和微观视角和大家聊一下AI和存储的关系。

宏观视角,典型的大模型训练由训到全流程中各阶段对于针对存储语义存在多样性。不管人工智能、机器学习,技术正在推动存储系统既有能力的提升,推动了整个底层技术的革新。左图是对大模型各环节对存储系统的需求拆解,数据存储处理、模型开发、训练、推理基本抽象出来更大的容量,更大的吞吐,更高的性能。这里面我们总结大概跟传统的存储性能相比,存在有变化性和不变性,不变性并没有新的存储方式新需求出来,依然以文件对象形态为主。变动性,数据灵活流动,需要消除数据烟囱式的变化。

二是AI的出现,数据集在持续增长,首先也是存在两点变动性,多模态趋势下使数据规模大幅增长,依然是驱动存储技术的革新。从微观视角看一下AI与存储,我们完全从技术角度做一下分析。

其实存储系统性能直接关乎着GPU的使用率和整个智算,整个AI大模型整体效率和成本直接相关。第二存在复杂的混合读写模式,性能要求非常高,所以说我们分别针对高性能存储对MSSU的重要意义做了两点变动性的考虑,一个就是目前软硬结合的性能优化,需要突破冯诺伊曼架构下的数据流动的瓶颈。第二个就是性能的超高弹性,比如说Check poink等阶段,另一个大模型各环节典型的有各种不同的I/O模型、模式、包括数据准备、训练、推理阶段包括各种各样的随机读写、大小I/O、顺序读写,就是各种模型在AI智算各个环节都是混合的。所以说它存在两种变动性,一个就是多种模式混合的情况下,我们如何去节省资源流转,做更好的资源调度。第二训推核心模式下我们如何去降低延时提高吞吐?

所以总结下来,需求和挑战,整个AI智算需要更大的容量,也就是说每年据Gartner分析每年需要50%的高速增长,需要超大容量存储空间,单个大模型的训练数据可达PB级,存储服务需要具备良好的扩展服务能力。需要更高性能,AI场景中需处理千亿级别的小文件,需要文件存储系统提供十万级IOPS能力。为保证断点续训,需读写TB级CKPT文件,要求文件存储系统具备百GB以上带宽。需要更低成本,AI项目需要处理和存储大量数据,存储成本是重要考虑因素。AI场景下数据会有明确的冷热转换,需要提高数据管理效率、优化,需要更多协议,AI平台需要与多种工具、技术及上层业务集成,AI项目在数据采集、处理、训练、验证、发布过程中亦涉及多种访问协议,存储系统需要融合存储能力。

二、移动云文件存储面向AI解决方案

这是我们面向AI场景去设计的一个高性能文件存储的方案,首先我们分了四层,分别是计算资源层、接入协议层、存储能力层、高性能的原数据层和高性能的数据层。

接口协议层:对外提供
POSIX、NFS、CIFS、S3的访问接口,支持1000+计算客户端,负责文件语义解析以及对象语义到文件语义的转换。

存储能力层:作为存储集群的核心模块,负责文件切片、多池纳管、冷热分层、文件分池治理、
IO分流、小IO聚合等一系列核心存储能力实现。

高性能元数据引擎:利用高性能分布式键值存储维护文件和目录的树状视图,实现元数据的动态分片管理、全局负载均衡。

全闪高性能数据引擎:负责随机写到顺序写无损语义转换,高效管理数据索引,同时支持
TCP和RDMA,支持副本和纠删码间的无感数据流动。

分别介绍一下整个架构里面具体的几点功能实现。

第一,我们提供统一命名空间与冷热分级。我们通过左图跨池统一命名空间设计,可以做到
PB级文件系统的弹性扩展。第二根据支持用户自定义的存储优先级,满足不同场景的存储需求。右图是数据流转模式,在read/write有冷池、热池和温池,因为支持AI全流程数据生命周期的管理,可以优化存储成本,提高存储效率,同样也是支持自定义的流转规则,做到数据迁移过程中使业务无感。

第二,智能缓存加速与IO智能流转。

左边是缓存是在多协议网关与数据存储和原数据存储之间假设了一层分布式缓存能力,通过全闪缓存加速,使用SPDK无锁队列、RDMA网络卸载技术,避免了进程上下文切换、锁抢占问题,加速全链路IO。构建内存、SSD的多层缓存机制,逐层对IO进行聚合加速,全面提升系统IO性能,单PB提供近百万 IOPS、近百GB/s带宽能力。

另一个数据跨池分布、大小IO分流。多副本的能力,EC的能力,因为EC更适合处理一些大的文件,或者大的IO,具有一些低成本的优势,三副本在一些小IO小文件上,性能是提升比较明显的,所以说我们针对这个做了一些数据跨池分布,大小IO分流处理,在保证集群性能的前提下,压缩20%存储成本。

第三,统一数据底座与多协议互通能力。左边就是数据底座和多协议互通基本架构,首先数据通路从下到上分别是TAIHU、通用语义层、网关层。传统解决方案从数据采集到模型发布、推理,面临多次数据拷贝和流转,一份数据存储效率低,流转效率低,工具语义较为割裂,使用体验比较差。通过TAIHU解决方案,我们可以做到数据全池互通,消除数据的烟囱式分布,提高整个训推效率。

三、性能收益与应用场景

性能收益上还是针对整个大模型AI处理,做一下各阶段的分析。首先是针对数据归集和预处理上面,因为传统的烟囱式的存储解决方案处理时间较长,数据归集、数据较为分散,我们针对此用智能数据流动能力可以进行快速的数据加载,高效存储、高效流转,整体大概缩短35%的准备时长。

模型训练阶段,因为模型训练最重要的还是Check poink和Recover阶段,这两个CPU并不能完全使用,而浪费算力。我们用我们提供的极致的读写能力,高IOPS和并行大带宽,大概提升整个GPU利用率近45%以上。

整个训推过程中,算力或者算力集群存在着稳定性比较差的情况,就存在数据中断,所以由此我们也是做到了多级故障隔离,业务持续化在线,完全可靠。

综上,高性能文件存储基于对智算全流程需求分析,针对痛点全面优化,高效支撑万卡集群的大模型训练,使训练时长降低20%以上,GPU利用率提升近15%。

应用场景:人工智驾需要高吞吐量和低延迟加速自动驾驶模型训练,提升数据处理速度,确保车辆具备实时决策能力,增强安全性与行驶效率。

高性能计算:基因测序,单个文件挂载点可承载数亿小文件,实现跨区域、跨租户数据共享,满足海量基因数据高效处理的高带宽需求。媒体娱乐:影视渲染,按需按时计费,多维付费模式:优化调度效率,按需供给资源,大幅降低成本。

高性能共享服务能力:提供超高带宽、百万级IOPS的高性能存储,支持千余客户端并发,渲染时长降低70%,业务量增长近3倍,经济效益提升近3倍。

我们针对面向AI万卡集群的高性能文件存储可提供大容量、高吞吐、低时延、多协议访问能力,支持高性能计算、人工智能及媒体娱乐等多种应用场景,全方位满足各行业多元化需求。