ChatGPT等人工智能应用在快速演进,在GPU上存储、运行大量数据以训练人工智能模型的需求源源不断,闪存产品创新是加速模型训练效率的一大重要途径。“闪存加速AI技术论坛”在2023闪存峰会筹备期间便已受到广泛关注,相关领域专家就数据存储与人工智能融合发展等话题展开分享。那么,闪存如何加快机器学习模型的训练速度,怎样将人工智能应用到提升闪存存储系统使用效率?
浙江工业大学前沿交叉科学研究院副院长姚信威,以“智能物联融合感知与计算:多模态数据处理”为主题展开分享,聚焦于大模型和智能计算方向,就多源智能感知,群体优化决策及多跨协同系统做相关介绍,探讨从基础理论、关键技术到示范应用,介绍浙江工业大学群智感知与协同科研团队基于感知领域数据处理的相关工作。
人类正在进入一个“人机物”三元融合的时代,需打破信息、物理、社会三元空间隔离,促进人机物要素彼此激发跨域协同。这是一个万物智联、群智涌现的新时代,面临群智涌现非确定性、群智计算可演化性、群智质量可保障性等新挑战,面临群智涌现机理、群智计算概念模型、群智认知和决策等科学问题,群智计算在智慧城市、智能制造、智能家居等重要领域具有广泛的应用前景。
面对当前急速增长的海量数据,企业如何有效应对存储成本高、如何突破存储性能瓶颈等挑战,如何加强对海量数据存储、管理和分析的能力?浪潮分布式存储总经理姜乐果,发表“生成式AI时代 极致存储 智慧有数”的主题演讲。
姜乐果提到,AI大模型训练有三要素,算力,算法和数据,三者相互配合,紧密协作,才能更快更好得训练出更优质的模型,提升企业经营决策效率。企业当前的数据中心算力建设十分充分,但存储能力的配套设施往往存在不足,导致在AI模型训练时,数据导入和准备耗费大量时间,训练过程加载慢,严重影响AI大模型训练的效率。
浪潮重磅发布的AS15000G7系列AI专用的高性能存储新品,主要是面向生成式AI全阶段的高性能融合存储,可以同时提供数据访问高的吞吐量、高的IOPS和低时延,全面加速数据训练和推理过程;融合多种存储存储服务,实现AI训练全流程数据高效流动,无需来回拷贝数据。新品在性能、管理、融合和效率方面追求极致,可为AI大模型数据全生命周期的高效存储提供有力保障。
随后,阿里云智能高级技术专家季旭,分享了高性能存储在AIGC场景下的机遇与实践。他指出,大模型的参数量在不断增大,当前高性能硬件基础设施给闪存系统带来了更多挑战,大模型的计算量的增长远快于硬件迭代速度。阿里云CPFS是为HPC高性能计算与AI机器学习设计的并行文件系统,从输出形态上可支持公有云和混合云, 最大可以支持TB级的吞吐能力,在云上和云下都具备一致的使用体验。我们熟知的FAST天眼的背后就有高性能并行网络CPFS提供支撑。
上海科技大学教授、研究员、博导殷树发表题为“RBC:通过调节带宽改善SSD写性能和长尾延迟”的演讲。他表示,基于LSM-Tree的KV存储系统性能会受到读放大和写放大影响,会受到写停顿的影响而出现波动,RBC通过调节数据刷新和压缩操作的带宽的方式可降低写停顿和写放大对整体性能的影响,具体而言,RBC针对RocksDB写性能与长尾延迟的问题提出了一种新的优化思路,通过调节flush和compaction对带宽的占用比例改善写性能和长尾延迟。
“弱人工智能只能完成特定任务,强人工智能就是通用人工智能,能具备多种能力甚至是全能力;超人工智能将全面超越人类现有水平,理论存在。” 最后,上海市计算机学会存储专委副主任陈雪菲,就“AI大模型与存储新发展”发表个人洞察与相关研究。
生成式AI是一个典型的并行计算应用,并行度越高越有利。Transformer结构内存压力很大, 如训练 GPT-系列,如果按照 10000 亿参数量计算,假设用单精度,每个参数要占 4 个字节,仅参数就要占4000G内存,梯度也要占4000G内存。张量并行:一个模型单卡放不下,切开放,弊端是通信开销太大;流水线并行:层数和GPU 数量之间关系,就像工程队数量(GPU) 与楼层数(流水线层数)关系一样密切。流水线层数和 GPU 之间比值越大,并行效率越高。20 个工程队盖 1000 栋楼,很多时候并行度可以达到 20,模型必须在合理的延迟时间内做出响应。谁也不想在聊天APP中等待几秒钟才开始收到输出。
对于存储技术发展,他指出在介质方面,DNA存储有所进展。DNA有两种保存方式,一个是体内保存,还有一个是体外保存。麻省理工一个教授讲过,用一个咖啡杯装DNA,这点容量就可以把全世界的数据放进去。天津大学在2022年把敦煌壁画放到DNA里,放进去以后在常温下破坏掉,通过两个手段,一个是DNA重建技术,重建后还有数据缺失,数据用了喷泉码,实现了97%的数据恢复,放在图画上基本上看不出差别。此外,当前的CXL 3.0引入了真正的内存共享,利用新的增强一致性语义,多个主机可拥有一个共享段的一致副本。
数据与存储与人工智能技术融合发展,将释放无限潜能,我们将不断在创新实践中洞见新机遇。