对象存储和文件存储谁更适合AI训练和推理?

前不久,关于对象存储是否比文件存储更适用于AI训练和推理的讨论中,VAST Data联合创始人Jeff Denworth和微软AI基础设施架构师Glenn Lockwood都主张对象存储更适合AI训练和推理。

现在反方来了,Hammerspace营销高级副总裁Molly Presley还有AI和HPC领域数据基础设施提供商VDURA的首席执行官Ken Claffey都反对。VDURA为超级计算、机构和企业高性能计算(HPC)提供并行文件系统。Ken Claffey认为,将AI训练和推理市场中的文件与对象数据访问问题视为非此即彼是错误的。

并且在Blocks & Files采访中,Ken Claffey讨论了这一话题。

1、是什么让你开始思考这个问题的?

Ken Claffey: VAST Data的Jeff Denworth最近提出”没有人需要文件系统用于AI训练”的观点,S3基础的对象存储才是未来。虽然AI工作负载确实在不断发展,但断言文件系统已过时的说法最多只能说是误导性的。

2、你认为AI存储的实际需求是什么,并行文件系统在大规模高性能AI训练中的作用是什么?

Ken Claffey:在VDURA,我们并不认为AI存储是一个在文件和对象之间二选一的问题。我们的架构以高性能对象存储为核心,前端是一个完全并行的文件系统。这意味着用户可以兼得两者的优点:对象存储的可扩展性和持久性,以及AI训练所需的高性能访问。

随着最新v11版本的发布,我们进一步通过整合高性能分布式键值存储来增强平台。这一新增功能优化了元数据操作,实现了超快速索引,进一步增强了AI和HPC工作负载的性能。

此外,VDURA提供了一个高性能S3接口,允许通过文件和对象协议无缝访问相同的文件和数据。这确保了企业在扩展AI基础设施时的最大灵活性和投资保护。

3、对象存储在这里的作用。

Ken Claffey: 微软Azure的Glenn Lockwood最近指出,大规模AI语言模型越来越多地使用对象存储进行训练,而非文件存储。他的观点与日益向基于对象的架构转变的趋势相一致,但在得出结论之前,重要的是要审视AI模型训练工作流程的细节。

Lockwood概述了AI模型训练的四个主要阶段:数据摄取、数据准备、模型训练和模型部署与推理。虽然Lockwood断言并行文件系统对于这些工作负载并非必需,但他的论点主要围绕成本效益而非原始性能。对象存储因其规模和成本效益,非常适合用于数据摄取和准备。然而,对于模型训练和实时推理,像VDURA这样的混合方法提供了最佳的解决方案。

4、如何看待英伟达在这个问题上的观点?

Ken Claffey: 随着英伟达发布新一代GPU和DGX平台,他们继续强调高性能存储需求。根据英伟达自己的DGX指导方针,领先的AI平台推荐的存储配置是:“高性能、弹性、POSIX风格的文件系统,针对多节点上的多线程读写操作进行了优化。”而且英伟达从未指出AI训练应完全依赖对象存储。事实上,他们自己的高性能AI架构是围绕为分布式节点设计的文件系统构建的,这些文件系统适用于多线程、高吞吐量访问。

5、检查点是否鼓励使用对象存储?

Ken Claffey:Denworth引用英伟达的“S3检查点”作为AI训练转向对象存储的证据。然而,他故意忽略了英伟达的一个关键细节。即异步特性目前不会检查之前的异步保存是否完成,因此即使当前保存失败,也可能会删除旧的检查点。”

这在实践中意味着什么?使用异步检查点可能会导致恢复点更早。大大降低了检查点的可靠性,增加了丢失训练进度的风险。并行文件系统经过数十年的优化,用于同步、一致的检查点,其价值不容小觑。

6、如何优化VDURA存储?

Ken Claffey:VDURA构建了一个整合了以下内容的解决方案:高性能对象存储用于高效处理大规模数据摄取和归档;完全并行的文件系统前端,用于优化AI模型训练的低延迟、高带宽访问;分布式键值存储,用于加速元数据查找、向量索引和推理;高性能S3接口,确保AI工作流程中的多协议访问。这种架构既解决了Lockwood的担忧,又满足了对性能和可扩展性要求最高的企业的需求。虽然对象存储发挥了关键作用,但完全否定并行文件系统忽略了大规模AI训练的实际需求。

7、如何看待AI存储的未来?

Ken Claffey: Denworth和Lockwood都为对象存储提出了有力的论点,但他们淡化了AI训练中性能关键的方面。AI存储的未来是混合的:

并行文件系统为训练提供了必要的速度和效率。

对象存储对于存档、共享和检索工作负载很有用。

多协议解决方案弥合了差距,但这并不意味着文件系统已经过时——远非如此。

高性能分布式键值存储增强了元数据管理和索引,进一步优化了人工智能工作流程。

VDURA的方法认识到这一现实:以高性能对象存储为核心,全并行文件系统前端,集成键值存储,以及高性能S3接口——所有这些协同工作,为人工智能和高性能计算工作负载提供无与伦比的效率。与WEKA声称仅对象存储就是未来这个观点不同,我们认识到大规模人工智能训练需要所有存储范式的最佳组合。

大规模部署人工智能的企业需要一个真正满足性能要求的存储基础设施,而不仅仅是理论上的灵活性。虽然对象存储发挥着作用,但并行文件系统仍然是高性能人工智能基础设施的支柱,提供当今人工智能工作负载所需的速度、一致性和规模。

行业并没有远离文件系统 —— 它正在发展以采用最佳的技术组合。问题不是 “文件还是对象”,而是 “我们如何最好地优化存储?”