破解AI带来的数据存储挑战,西部数据是如何做的?

在数智化时代,“数据”算得上是绝对的“C位”……

作为一种重要的生产要素,数据在规模化激增的同时,其价值也正在得到释放:新近印发的《“数据要素×”三年行动计划(2024—2026年)》提出,到2026年底,数据要素应用广度和深度大幅拓展,在经济发展领域数据要素乘数效应得到显现;以ChatGPT为代表的大模型持续火热,在带动算力,尤其是智能算力需求爆发的同时,也带来了用于大模型训练与大模型推理的海量大数据的需求。

这也仅仅是数据价值得到释放的案例之一。而随着AI大模型的进一步发展和普及,数据的规模将持续扩大,数据的价值还将得到进一步释放。在人工智能领域,西部数据认为,数据的质量与数量决定了人工智能的整体水平。然而,笔者注意到,大模型训练、推理所需的算力基础设施除了提供算力、运力等资源外,还需要提供存力,也就是数据存储力,这对数据存储的性能、容量、成本以及能耗提出新的要求。

木桶效应里,数据存力不做短板

算力、数据、算法是支撑AI大模型落地的三大要素,在大模型爆发初期,企业普遍将注意力放在价格高昂、供不应求的智能算力上,容易被忽略的数据存力同样起着至关重要的作用。事实上,大模型的训练与推理需要依托计算芯片、存储与网络共同构成的大规模算力集群,这其中,算力、存力、运力都不应该成为“木桶效应”的“短板”。

事实上,算力集群也是存在短板效应的,假如存储和网络无法支撑大规模数据存储、读写与传输,即使计算芯片的性能再强,也不会有用武之地,同时还会影响大模型训练的效率。之所以这样说是有原因的,相关调查显示,大模型场景对于数据存力有着高吞吐、高IOPS、高带宽、低延时的极致性能需求。如若存储性能达不到要求,会使得数据存力成为“短板”。

西部数据进一步指出,目前AI应用场景的存储架构主要建立在分层存储、存算分离的基础上,整套数据存储架构必须同时满足容量、性能、成本以及能耗的多样化要求,搭配多样化的产品组建数据存储基础设施。下面,笔者也将从大模型训练的数据所拥有的特征来验证西部数据的这一观点。

我们需要承认的事实是,大模型训练所需的数据规模是庞大的:以文档、图片、音视频为代表的非结构化数据,其规模可以达到几亿至几十亿量级;从纯文本的TB级到多种数据类型的PB级都需要占据大量的存储空间。

因此,海量数据需要存储系统支持高吞吐、大容量,同时支持多种协议数据互通,让数据能够快速地在各个环节流转,避免数据等待产生算力闲置的状况。

大模型训练对存储带宽也是有要求的,据悉,大模型训练存储带宽的要求比电商业务顶峰时段高出几百甚至几千倍,存储性能的高低可能造成模型训练周期数倍的差异。此外,大模型落地的成本也是关注的焦点,千亿级别参数、动辄以月来计算的训练周期,意味着极大的存储成本,降低成本成为关键所在。

破解存力短板,西部数据有哪些解决方案?

满足AI时代数据存储的需求,存储解决方案提供商需要从容量、性能、成本、能耗等方面出发,打造多样化、差异化的解决方案。西部数据以企业部署AIGC应用工作负载为例,对其所需的存储解决方案进行说明。西部数据认为,未来,以AIGC为代表的先进数字化应用产生的以存为主、低频使用且价值不太明显的非结构化数据的价值挖掘也将成为企业中的关键性问题。

西部数据预计,高效可靠地进行海量非结构化数据的存储和分析,将成为企业数据治理的一个重要考量。面对AI大模型的进一步发展和普及,西部数据将继续凭借在存储领域的多年积累和核心优势,提供多样化的数据存储解决方案和产品,为AI大模型进一步发展提供数据存储基础架构的坚实底座。具体来看,西部数据所提供的低时延、更高IOPSSSD产品和大容量满足更低TCO和功耗的HDD产品能够为相关基础设施建设提供存储解决方案支持。

在Flash领域,西部数据打造的企业级SSD拥有三大核心技术优势,也就是集成完全自主的NAND Flash、先进的SSD控制器和高性能固件于一体,这样集成能够让SSD实现性能和稳定性的极致优化,确保SSD生命周期稳定的I/O一致性。同时,西部数据携手铠侠成功地推出第八代218层3D闪存,在性能、密度和成本效益方面实现了重大飞跃。西部数据还提供包括SN840、SN650、SN655在内的针对不同需求的企业级SSD产品,从而满足丰富多样的应用需求。

西部数据Ultrastar DC SN655 NVMe SSD

而在HDD领域,西部数据借助创新的OptiNAND技术、能量辅助磁记录 (ePMR)、三阶寻轨定位系统 (TSA)、氦气封装(HelioSeal)以及全新的UltraSMR技术,能够更好地帮助云服务客户降低存储总体拥有成本(TCO),从而持续、快速地扩展业务。同时,由于在面密度技术上的独特优势,西部数据能够更好地帮助客户获得更低的每TB容量功耗,帮助数据中心客户提高PUE(电源使用效率)。

HDD产品上,西部数据可提供容量高达24TB 的Ultrastar DC HC580 CMR HDD、及28TB 的Ultrastar DC HC680 SMR HDD。据了解,Ultrastar DC HC680 SMR HDD为超大规模云、云服务提供商和企业级客户提供了更高的存储密度,广泛应用于大容量存储、在线备份、智慧视频、在线归档、云存储、合性存储、大数据存储以及其他可能不常访问数据的应用。

西部数据Utrastar DC HC580 24TB CMR HDD
西部数据Ultrastar DC HC680 28TB SMR HDD

西部数据透露,自2023年8月出样以来,28TB SMR HDD正在快速进入市场,它将进一步增强西部数据在SMR HDD市场的地位与发展势头。在公司2024财年第1季度,西部数据26TB SMR HDD总出货量将达到其数据中心产品总出货量的近50%

携手合作伙伴,打造AI时代的存储方案

数据存储离不开合作伙伴,西部数据一直以来积极与合作伙伴在产品、技术和市场方面持续合作。在产品上,西部数据积极地与重要的软件开发商、云服务提供商都在做进一步方案系统升级的优化合作,并将最新的技术和产品交付样品给合作伙伴做联合测试,持续优化可能存在的问题,最终打造出符合合作伙伴和市场需要的解决方案。

比如,越来越多的客户将SMR添加到其数据中心发展路线之中,通过优化堆栈以发挥SMR技术的优势。因此,这些客户还可以通过采用目前市场上更大容量的HDD产品,以更低的功耗扩展产品组合部署,从而在上市速度方面持续保持优势。

据悉,西部数据Ultrastar DC HC680由部分超大规模云、云服务提供商和OEM客户进行验证,西部数据也希望以较低的每TB功耗,想要获得更大存储容量的大型企业级客户供货,用以构建更高效的存储系统和数据中心。

此外,西部数据还在上海浦东打造了西部数据解决方案赋能中心,以此来支持企业级、OEM客户进行产品与解决方案的测试,进一步支持本土市场。

除了合作伙伴,用户的反馈也是至关重要的。在西部数据看来,存储技术的发展离不开每一位应用和创造出数据的用户。为此,西部数据将持续聆听市场的声音和用户的反馈,不懈地创新、共同地开发满足未来存储需求的产品和解决方案。

面向未来,西部数据透露,也将积极地与行业内的头部云服务商、OEM以及其他合作伙伴保持紧密的合作关系,通过帮助部署西部数据创新的企业级存储产品,打造符合当前AI技术快速增长、多元AI应用不断涌现时代下的存储解决方案,进一步赋能新型计算与绿色算力的发展。

写在最后

如今的AI赛道可谓异常火热,这种火热不仅是端侧的大模型数量与规模的持续扩大,也不仅是大模型的训练与推理带来的智能算力的需求,同时还是AI持续赋能云、网、边、端的持续升级。而在这场关于AI赋能的竞赛中,我们不可否认的是,AI在带来新的机遇的同时也带来挑战,这包括算力、大模型质量、安全,这也包括数据存储。

换言之,随着AI的迅猛发展,数据存储需求的持续增加正在成为一个不可忽略的事实。据统计,AI服务器所需的DRAM和NAND闪存容量分别是常规服务器的8倍和3倍。这也意味着存储系统必须具备足够的容量来存储海量的训练数据和模型参数,以支持人工智能应用的高性能运行。

在这个背景下,我们看到以西部数据为代表的存储解决方案厂商充分整合积累的专业技术能力与各行业的合作经验,通过技术创新、解决方案的持续打造、与合作伙伴持续深入地合作和赋能,持续提供针对AI应用领域存储需求的定制化解决方案,为AI时代贡献着自己的力量。