突破数据瓶颈,浪潮高性能存储平台加速产业数智化变革

当前,AIGC技术的爆发,让产业智能化和智能产业化进入高速发展期,数据作为关键生产要素,正在成为这轮全球增长和科技创新的引擎。近日,浪潮参加由百易传媒举办的2023全球闪存峰会,并在会上重磅发布高性能分布式存储平台AS15000G7,以在性能、管理、融合和效率方面追求的智慧存储新品,构筑智慧世界基石,推进AI产业化变革。

    AI大模型对数据存储产业带来的机遇与挑战

    AIGC是当前通用人工智能产业发展创新的核心技术,其具备强大的认知智能,在搜索引擎、艺术创作、影音游戏,以及金融、教育、医疗、工业等领域有着广阔的应用前景。Gartner预测,到2023年将有20%的内容被AIGC所创建;到2025年人工智能生成数据占比将达到10%。据分析师预测,到2032年,生成式AI市场规模将达到2,000亿美元,占据人工智能支出总额的约20%,明显高出当前的5%。换言之,未来十年市场规模可能每两年就会翻一番。

    AIGC的爆发,源自于大模型的逐渐成熟,大模型成熟的先决条件是大规模高质量的数据、强大的算力和成熟优化的算法,而其中,数据质量和数量决定了算法的效果和性能。随着参数量和数据量的极速膨胀,数据存储与管理正在成为制约AIGC产业发展的瓶颈:一是要支撑基于海量多元异构数据的归集、标注、训练、推理和归档全生命周期管理;二是要承载AIGC数据训练推理时的高性能、低延时、大容量、易扩展、自由流动的严苛需求。大模型训练数据多元、数据作业流程长、多态大模型数据量持续增长、多模计算大模型性能要求高,对当前AI数据存储基础设施提出了新挑战:

     数据归集与准备:大模型的数据包括从互联网及数字图书馆上收集的海量文本型数据,以及多渠道获取的图片型和视频型数据,对这些多元异构海量数据预处理后才能用于大模型训练,在此作业流程中数据的搬运和加载,要去存储系统多协议互访互通,存储成为应用平台的关键瓶颈;

     数据训练:大模型海量多元异构数据的训练,通常采用将数据加载到成百上千个节点内存中并行计算的方法,此过程中频繁地从数据集取Token,每个Token一般4字节,实时高并发小IO性能需要极低的延迟,对数据存储系统的吞吐性能提出了严苛的要求;

     数据推理:机器学习大模型要求频繁的参数调优,当服务器故障、网络故障造成节点中断时,需要数据存储提供高带宽,确保Checkpoint机制可以快速访问数据,使数据能够重新加载,训练能够快速恢复;

     数据归档:越多的数据投喂结果越精准的工作原理,决定了大模型训练存在深度学习网络层数多、连接多、参数和数据集种类复杂、数据量大的特征,大模型训练过程中快速迭代,产生大量训练数据和人工标注数据,对这些资产高效存储与管理,且最大化数据基础设施投资回报比,成为数据基础设施厂商必须解决的问题。

    浪潮高性能分布式存储平台AS15000G7

    产业发展的根本在于科技创新。浪潮作为最早布局AI产业的企业之一,围绕智算中心业务布局,打造了算力、算法、数据全栈解决方案。在数据存储领域,浪潮秉承“存储即平台”的产品理念,准确识别客户痛点积极布局面向AIGC应用场景的数据全生命周期存储解决方案,并基于业界对大模型训练的数据存储在性能、管理、融合和效率方面更好的需求,重磅发布高性能分布式存储AS15000G7平台,助力AIGC在金融、教育、医疗等领域突破海量多元异构数据存力瓶颈,加速释放数据价值。

    性能,加速AI大模型训练。AS15000G7采用高吞吐并行存储系统,通过GDS、RDMA技术缩短I/O路径;通过智能元数据管理,提前缓存用户数据和文件系统元数据,显著提升数据访问和检索速度;独有的智能网络优化技术,可实现多个子网与指定目的地通信,每对守护进程之间建立多个TCP连接并通信,显著提升网络端口并发能力,实现传输端口带宽翻数倍,时延缩短50%以上,小文件级传输的时延可降至毫秒级。

    管理,AI训练全流程透明可控。AS15000G7新品可同时搭载AIStation调度平台和InView数据管理平台,对AI服务器、网络、存储智能运维。支持训练推理全流程的多租户管理、资源分配、数据管理分析;支持本地和云端的系统性能监控,其中云端监控支持多数据中心统一界面管理,自动预警功能可帮助本地运维人员早发现问题早处理,HDD/SSD寿命和故障预测功能在14天内的准确率高于95%,处于业界领先水平,可帮助客户提前做好设备更新迭代规划,保证数据的可靠性和可用性;同时支持纳管多品牌存储系统,实现IT设备高利用率。总得来说,一套存储平台可以实现对AIGC数据采集、清洗、训练、推理、归档不同场景全流程的设备资源监控和管理,助力客户更加专注于大模型训练本身。

    融合,海纳多源异构巨量数据。AS15000G7平台基于其融合架构,支持文本、图片、音频、视频等多种类型数据存储,可对文件、对象、大数据以及视频的存储方式进行并行访问,支持多协议实时互访互通和系统扁平扩展。而且数据访问过程中保持语义一致、性能无损,从而对AI大模型海量多源异构非结构化数据实现高效共享。

    效率,提升用户IT设备投资回报比。AS15000G7平台基于自动化的数据分层和迁移,在确保对应用安全透明的前提下,可实现热温冷冰数据全生命周期的管理,通过基于闪存、磁盘、磁带、光盘的性能型、均衡型、容量型三种机型的按需灵活配置,存储TB级数据成本可降低超50%,TCO降低35%。

    “当前,各个厂商纷纷投资IT基础设施,训练自己的大模型,国内已发布的AI模型超过了100个,’百模争秀’的格局初现,云厂商和运营商对IT硬件的投资往往是数千甚至上万节点规模,而行业型大厂投资在几百节点规模,在建设布局时考虑到AI大模型对高性能AI服务器、高吞吐并行存储系统、低延迟RDMA网络的严苛需求,将数据中心的计算、全闪存储、混闪存储按照1:1:1黄金比例建设,用户可最大化获得投资回报比。”浪潮信息存储产品线副总经理刘希猛表示。

    得益于前瞻布局和技术创新,浪潮高性能分布式存储AS15000G7平台,已在“源”大模型中部署,并在智能客服、生物识别、互联网金融、精准营销等云数智新场景广泛应用。面对生成式AI掀起的变革浪潮,浪潮将秉承“存储即平台”的产品理念,不断精耕数据存储产品和解决方案,以性能、管理、融合、效率的数据存储基础设施,让数据存力像水电一样赋能千行百业,服务大众,成为人人可见、普适易用、高效互联的基础设施,革命性地提升人类生产生活水平。