看得见人工智能,看不见的第三支柱:数据存储

数据成就人工智能 存储框架适配数据周期(AI Data Cycle),才能释放数据的AI力量

AI无处不在,是当今社会的热点 。在DOIT和行业用户的基础中,很多用户反馈:AI是个趋势,必将对未来产生重大的影响,与此同时,行业用户也反馈,针对AI大势感觉无从入手。分析其中的原因,DOIT认为人们能够看到只是AI带来的神奇表现,但是没有看到AI背后的数据是如何训练的。

西部数据在今年6月正式发布了人工智能数据周期存储框架(AI Data Cycle),也部分揭秘了大型AI工作负载数据应用的秘密,有助于用户厘清AI和数据存储之间的动态关系。

西部数据公司副总裁兼中国区总经理 蔡耀祥

西部数据公司副总裁兼中国区总经理蔡耀祥透露:西部数据积极调整产品路线图,以满足在AI驱动下不断升级的需求,更大限度地提升性能和容量并降低能耗和TCO(总体拥有成本,Total Cost of Ownership)。

人工智能数据周期的六大阶段

西部数据通过人工智能数据周期,详细解读了AI管道六个阶段中数据从收集、训练到推理的存储细节。

<人工智能数据周期>

让我们简单了解一下人工智能数据周期的各个阶段。

1,原始数据存档,内容存储:从各种来源安全高效地收集并存储原始数据,以用于训练模型。所收集数据的质量和多样性至关重要,为后续的所有阶段奠定了基础。

在此阶段,查找并收集数据集需要大容量存储,通常来说会用到大容量企业级HDD(eHDD)。由于企业级HDD可以经济高效地存储巨量规模化数据,且拥有更低的TCO,被视作是建立深度内容资源库的理想选择。全球线上和可访问的冷数据及温数据都主要通过它来保存。具体来说,选用单盘容量点更高的HDD能够帮助云和企业级用户提升存储密度,实现数据中心的规模化扩展,满足不断增长的容量需求。

西部数据现已正式向指定客户出样具备行业领先容量的32TB 企业级ePMR HDD。

全新的大容量Ultrastar DC HC690 UltraSMR HDD专为超大规模云和企业级数据中心的巨量数据存储需求设计。在人工智能工作流这类对大规模数据存储和低TCO有严格要求的应用场景下,该产品可发挥重要作用。此外,凭借先进的ePMR技术和OptiNAND技术、长远的产品规划和可预见的容量提升,西部数据可以帮助用户充分应对当前乃至未来AI应用对存储日益增长的需求。

<西部数据Ultrastar DC HC690 UltraSMR HDD>

2,数据准备和转换:在该阶段,数据会被处理、清洗和转换,以供模型训练使用。在AI场景下,这一阶段需要执行的操作很复杂,并且对性能的要求也更高。数据需要首先被转化为AI模型可以使用的信息,包括对文本、图片、视频以及所有输入AI模型的内容进行矢量化处理。这也是AI管道中对各方面需求都更高的阶段,对计算和存储基础设施的要求也更加苛刻。

这是一个对性能要求很高且存储密集的阶段,该阶段的存储选择从HDD转向了SSD,从而建立高速数据湖以支持数据准备和转换。在该阶段,用户会部署采用大容量企业级SSD(eSSD)的全闪存存储系统,以增强现有的基于HDD的资源库,或用于新的全闪存存储层。

为满足市场对大容量SSD的需求,西部数据全新的企业级SSD将容量提升到了32TB和64TB,并针对人工智能数据周期中第二阶段的高性能存储需求和其他大容量性能存储需求着重优化。全新Ultrastar DC SN655+企业级SSD采用PCIe Gen 4接口,并集成了多项用于服务AI用例的软件特性和功能。

<西部数据Ultrastar DC SN655+ 企业级SSD>

3,AI模型训练:AI模型会在该阶段进行反复训练,从而基于训练数据做出准确的预测。具体来说,模型是在高性能超级计算机上进行训练的,而训练效率在很大程度上取决于最大化GPU利用率和专门的高性能存储。

从数据中心的角度来看,这一阶段的工作负载对计算性能的要求极高,所以需要我们再次转变存储策略。这一阶段理想的SSD是高性能、低容量、以计算为目的企业级SSD,确保向GPU集成系统输入数据的环节不会因存储性能不足而受到影响。此外,在该过程中还有很多复杂的操作,如检验点、归档等,可能会根据计算状态,将整个数据集写回数据湖或进行检索。因此,计算密集型存储和基于闪存的数据湖在该阶段有时会混合应用。

4,界面交互:这一阶段涉及为AI模型建立用户友好型界面,包括各类应用程序接口(API)、仪表板和工具等,使得上下文的特定数据和终端用户的提示可以结合起来。AI模型会被整合到现有的互联网和客户端应用程序中,在不取代现有系统的情况下增强其功能,进一步推动了存储需求。

这一阶段的存储重点在终端,比如在客户端设备、移动设备以及物联网设备。这些都是真正执行推理的地方。这里不仅有较高的性能需求来应对推理过程,也有更大的容量需求来应对新数据的产生。

兼顾性能和容量的客户端存储设备填补了这些需求。最终这些内容会回到基于HDD的长期内容存储系统中,无论是归档或云端的。换言之,PC和笔记本电脑需要容量更大、性能更强的客户端SSD(cSSD),手机、物联网系统和汽车会需要容量更大的嵌入式闪存设备,以在边缘已有的应用中增强AI。

5,AI推理引擎:第五阶段是奇迹实时发生的地方。在这个阶段,训练好的模型被部署到数据生产环境中,对新的数据进行分析并提供实时的预测或者生成新的内容。推理引擎的效率将直接影响AI响应的及时性和准确性。

这一阶段需要用于缓存的高性能eSSD、用于高速数据湖的大容量eSSD、大容量cSSD以及用于AI驱动边缘设备的嵌入式闪存。

6,新内容生成:最后一个阶段是新内容诞生的地方。AI模型所带来的洞察分析经常会产生新的数据,这些数据因其价值或趣味性而被存储。尽管这一阶段标志着循环的结束,但与此同时生成的新数据又会被反馈到数据周期中,通过不断提升数据价值以用于未来模型的训练和分析,实现持续的改进和创新。

生成的内容将被存储到大容量eHDD中,在数据中心实现大容量存储、备份和归档。同时,大容量cSSD和嵌入式闪存设备也将用于存储边缘设备中额外由AI驱动的数据。

针对人工智能数据周期第三、四、五阶段的高性能存储需求,西部数据推出了旗下首款企业级PCIe Gen 5.0 SSD解决方案,拥有市场领先的随机读写表现,容量高达16TB,随机读取性能相比上一代产品提升约3倍,超低的延迟和非凡的响应速度尤其适用于大语言模型(Large Language Model, LLM)的训练、推理和AI服务部署。此外,更低的能耗能够提供更高的每瓦特IOPS(IOPS/Watt),有助于企业进一步降低TCO。PCIe Gen 5带来的带宽提升满足了AI行业计算密集型工作环境对高速计算和低时延的需求。

AI提速内容增长,数据存储未来可期

在数据中心,预计未来五年内,HDD 和企业级SSD 都有显著的 EB 级增长机会。在2024全球闪存峰会上,AI引发的对大容量的存储需求成为会议的焦点,西部数据预计:在未来五年内,PC和笔记本电脑市场的cSSD需求也会出现25%~35%的增长,智能手机的闪存需求会出现40%~50%的增长。

西部数据深刻理解AI和数据存储之间的动态关系,在不断提供更大容量产品的基础上,为下一代AI工作负载所需要的极致性能和耐用性提供量身打造的存储解决方案。凭借持续丰富扩展的产品组合、长远的技术路线和不懈突破创新,西部数据将帮助用户释放AI的革新力量,创造更多价值。