曙光发布AI大模型存储解决方案,三大特点力助大模型开发提速

据高科技投资机构ARK Invest预测,到 2030 年,以AIGC为代表的新一代人工智能技术将辅助知识工作者提高工作效率达140%。

随着AI大模型行业的落地以及实用化,很多人都在思考,基于自身的业务需要一个什么样的大模型底座。作为20余年深耕数据存储,致力于存储技术先进创新的曙光存储,其创新研发的AI大模型存储解决方案,为上述问题给出了答案。

曙光存储行业总监李国君

11月29日,在DOIT传媒主办的“2023中国数据与存储峰会”上,曙光存储行业总监李国君发表主题演讲,详述面向AI大模型的数据存储解决方案,通过打造AI数据基础设施,加速行业AI应用落地。。

数据质量高低决定大模型智能化程度

李国君指出,目前有一个值得关注的问题是,平时训练AI大模型,客户首先想到的是需要极强的算力与先进的算法,往往忽略了训练数据的质量。其实对大模型的智能化水平而言,数据的质量非常重要。

可以说,数据质量的好坏决定模型的智能化水平。良好的数据质量,也成为了大模型进步的阶梯。有这样一组数据,Meta公司的大模型LLaMA与OpenAI的GPT-3的数据对比,虽然参数量是不足后者的40%,但是OBQA测试得分却更高。

大模型应用开发的存储三大诉求与对策

在以往的项目实践中,作为安全高效管理高质量数据的载体,也就是存储系统,也经常被用户忽视。缺乏好用易用的存储系统,导致花大量资金购置的AI算力基础设施往往无法充分发挥优势,对于客户来说ROI不高。。所以,在大模型的时代,存储是一个非常重要的核心基础设施。

基于过去项目中与大量进行AI应用创新开发的用户沟通交流以及在智算中心的大模型测试经验,曙光存储也总结了一些大模型存储遇到的挑战。主要体现在以下三个方面:

一是超大规模数据预处理耗时长。在正式训练前,需要对海量多格式的原始数据进行归类与预处理,甚至涉及数据在多套系统间进行搬迁,处理数据时间过长,会造成算力资源的浪费,对存储的诉求就是需要一套能够智能分级、异构融合支持数据全生命周期管理的存储,降低数据在异构存储系统间传输的成本。

二是在训练过程中的空载过高,配备的大量的GPU算力由于需要周期性地等待存储系统处理数据,导致算力不能充分投入AI计算流程中,原因是在训练时需要对语言数据进行检索以及样本数据快速的加载,同时,为防止任务异常退出,模型从初始状态进行训练过程中也需要保存中间状态数据、间隔几个小时就要保存一次数据,这个过程当中需要写入大量的文件。两者叠加,对存储的诉求就是读延时低、写数据快。

三是高质量的数据。高质量的数据往往不是公开的数据,而是企业核心的生产数据,这也在客观上形成了企业客户开发行业大模型及相关AI创新应用的数据安全和规避风险要求。但同时也需要存储系统具备对这些隐私数据提供安全保护机制。

客户在大模型及相关应用开发过程中,遇到的涉及数据处理的上述痛点,归根到底还是对企业级高性能存储系统的诉求。

行业标准流程范式需求,企业级AI存储解决方案诉求,其实就是预训练+微调的范式,它背后考验的是后台的大数据、服务质量的要求。模型“预训练+微调”已经成为行业统一的标准流程和范式。在此基础上,结合具体的应用场景和专业数据,可以进一步定制和优化各领域各行业的小模型。某种程度上,大模型训练数据和数据服务接口标准,将会成为下一代国际标准的核心之一。

打造高效AI数据基础设施

基于上述三点诉求,曙光存储打造了高效的AI数据基础设施底座。

该底座具有三大特性。

首先是异构融合。通过一套存储系统能够保存视频、图片、多模态的数据,并且以同一份数据支持文件、对象、大数据的并行访问。

第二是极致性能。为了发挥GPU该有的效率,需要在训练前、训练中降低存储处理的时延以及高吞吐量。曙光推出了三项技术:1、多级缓存加速:基于自研BurstBuffer,最大化释放本地NVMe介质能力,达到百万+IOPS能力。2、XDS数据加速:支持国内主流与国外GPU的计算能力,把后端存储的数据快速加入到芯片缓存中,实现基于DMA技术。3、智能高速选路:多路径均衡优化,选择“最优最短”路径下发IO。

第三是高安全性,以存储节点内提供芯片级安全能力,支持芯片级的加解密的算法,提供安全可靠集群存储服务。

李国君表示,为了实现这三大特性,曙光存储在五个方面开展了细致的工作。

1.自研创新,激活算力

曙光存储一直坚持自研创新,针对影响存储性能的软硬件两大因素持续发力。

在硬件方面,曙光创新硬件支持PCIe5.0、DDR5以及CXL2.0的技术,包括芯片内置的加解密的算法,这些新技术、新特性为将来千亿级、万亿级市场提供更多的性能优化空间。在软件方面,支持00Gb以太、200Gb IB等协议,支持各种容器化、虚拟化的资源池以及大模型的开发框架,加速行业AI应用落地。

基于软硬协同的方式,曙光存储在一个数百TB的AI大模型的项目中得到这样的实测性能结果,聚合带宽达到900GBps、IOPS突破了3000万的能力。

2.海量文件智能存储与管理

大模型需要多模态的数据,数据量大,规模大,增长快。在这个背景下,需要海量的数据的存储和管理能力。

为此,曙光存储从三个方面进行应对。首先采用融合多协议,通过异构数据融合,实现单集群支持多模态,避免数据跨存储系统复制;其次是千亿级文件管理的能力。大模型的场景小文件非常多,采取多目录分片索引集群,在存储集群的物理节点上可以分更多的逻辑节点,提升数据处理的效率,减少目录热点问题;三是生命周期的管理,基于对热点数据的智能分层,让冷、温、热三层的资源之间进行互通,减少用户使用存储的成本。

3.面向AI的数据IO性能优化

存储永恒的追求就是提高IO性能。曙光存储的对策就是采用更快的存储介质和节点,以及针对AI模型应用相匹配的、基于软件层面的调优工作。

4.多级可靠,让训练任务运行稳定

曙光存储始终认为,只有企业级的产品和方案才能保证AI大模型运行过程中的安全稳定运行。采用开源的产品,如果缺乏大规模的使用和维护的经验,一旦存储遇到崩溃、数据不可访问或者数据丢失的场景,将严重影响AI大模型开发的工作。曙光存储支持基于部件级、节点级以及系统级和方案级四级安全可靠的机制,保证AI大模型开发过程当中全生命周期的稳定运行。

5.原生硬件安全,符合国内政策和未来安全趋势

安全问题是大模型开发过程中值得重点关注的环节。

曙光存储充分发挥国产硬件处理器的原生安全能力,支持多样化的加密机制,以硬件处理器内置芯片级加解密算法以及丰富的国密指令级,相比软件加密的方式性能提升50%以上,充分发挥了原生的硬件级的数据加密的保护方式。

推进国内领先大模型建设,加速行业AI应用落地

在国内,一家领先的企业进行大模型开发,系统中存储有将近1TB的数据、上百台AI算力设备。这家企业的要求是系统架构简洁,数据高效流转支撑业务快速发展,能提供微秒级元数据访问性能,提升训练效率,支持多类存储协议(如POSIX、NAS、S3),提供高速训练存储池同时,支持历史CKPT数据利用对象存储进行归档保存等。

应用曙光存储系统后,该企业新版本的大模型开发周期缩短了5天,实现了重要模型数据及开发日志等跨协议、跨数据中心安全归档;相比传统SSD混闪文件存储,分钟级写入3TB CKPT数据,整体训练效率可提升50%以上,大大提高了模型开发的效率。

曙光存储异构融合,极致性能以及原生的安全来支撑大模型应用的开发,适用于各类企业级AI应用开发,助力行业AI大模型应用更快一步。

未来,曙光存储将继续坚持自研创新,跟广大行业解决方案伙伴一道携手同行,为客户提供更好、更安全可靠、更智能的存储解决方案。