VAST Data联合创始人杰夫·丹沃斯(Jeff Denworth)在X平台上表示:“AI训练不需要文件系统……更具体地说,没有人需要一个仅是文件系统的系统。尽管高性能计算(HPC)存储社区正在告诉世界,平行文件系统对AI至关重要,但客户已经开始在其训练环境中部署S3检查点工具和S3数据加载器(这些工具也可以异步工作)”。
这让我们开始思考AI训练中文件系统的必要性以及VAST的发展方向,因此我们向丹沃斯提出了一些问题。
Blocks & Files:为什么像DDN这样的文件系统供应商被Nvidia用于其自身的存储,获得了SuperPOD认证,以及被X用于其Colossus AI集群,还有许多其他客户用于AI应用?同样的观点也适用于NetApp、Pure和WEKA。显然,许多客户,包括Nvidia,都在使用文件系统(无论是平行的还是非平行的)进行AI训练。这是为什么?
杰夫·丹沃斯(Jeff Denworth):这不是非黑即白的问题,而是逐步演进的。历史上,所有AI训练框架都需要POSIX/文件接口。只有开发自己框架的公司才会考虑使用对象存储,而这种情况仅限于顶尖的公司。
格伦·洛克伍德(Glenn Lockwood)在这里阐述了一个例子。
许多客户仍在使用文件系统……我的观点并不是它们没有被使用,而是如今你需要多协议支持,否则仅靠文件系统的解决方案会导致非常糟糕的投资保护。框架的演变速度比客户的投资决策更快。客户现在开始进行转变,我们经常听到他们表示,他们喜欢能够在同一数据上同时以两种模式工作。
别忘了,Nvidia还收购了一家对象存储公司(SwiftStack)。这说明了很多问题。
Blocks & Files:是否有大型语言模型(LLM)仅使用直接来自对象存储系统的数据进行训练?这种能力肯定只是最近才随着Cloudian、MinIO、Nvidia和Scality等公司在对象数据存储方面的GPUDirect类访问设施的进步而出现的?
杰夫·丹沃斯(Jeff Denworth):是的。在我所知的全球排名前十的模型中:
- VAST正在被用于一个非常突出的模型,仅在CoreWeave上使用VAST S3。我们还有一些其他顶尖的名字开始进行实验。
- Azure Blob正在被用于一个非常突出的模型。
- Nvidia正在S3兼容存储上训练一个非常突出的模型。
- 这只是我所知道的。
Blocks & Files:VAST构建了一个专注于AI的软件栈,即VAST数据平台,包括基础数据存储、其数据目录(DataCatalog)、数据库(DataBase)、数据空间(DataSpace)和数据引擎(DataEngine),以实现其“思考机器”愿景,我们认为这些是必要的软件层。然而,OpenAI的ChatGPT和其他生成式AI模型开发者已经证明,你可以拥有智能聊天机器人而无需这些软件。给他们一个向量数据库和文件系统,他们就可以完成任务。看看DDN、IBM、NetApp、Pure和WEKA,它们都获得了Nvidia SuperPOD认证。
杰夫·丹沃斯(Jeff Denworth):总是有可能集成一个解决方案;这并不意味着它是实用的或高效的。
VAST……打破了规模、事务性、安全性等方面的权衡,以提供(在我看来)AI检索的最佳可能方法。大多数组织处理GB级数据集,认为他们有一个好的解决方案。我们设想的是一个世界,AI嵌入模型可以理解所有数据的时效性和相关性,因为数据正在被分块和向量化……所有数据都将被向量化,数万亿个向量需要在恒定时间内可搜索,无论向量空间的大小……只有我们的架构才能做到这一点。
一个能够管理每秒数十万到数百万个文件的摄取、实时处理和索引的系统……以及立即将所有数据更新传播到索引,以便企业永远不会看到过时的数据。一个不需要昂贵的基于内存的索引的系统,因为传统的分区方法是低效的。你需要DASE(分离式存储架构)来实现所有这些。
最后……底层数据源需要是可扩展的且企业级的……我不确定你还能从哪里得到这些,除了VAST。
Blocks & Files:ChatGPT风格的技术是否否定了VAST软件栈的需求?
杰夫·丹沃斯(Jeff Denworth):恰恰相反。代理应用的兴起,组织在GPU时间内的计算增加了对我们技术的需求。在你考虑这个问题时,我建议你停止将AI和RAG(检索增强生成)仅仅视为聊天机器人……未来商业的速度将不是由人类处理数据的速度决定的。Nvidia计划在未来几年内部署1亿个代理来增强其5万名员工的工作——所有这些代理将共同处理复杂的商业任务。你不认为这将推动传统存储和数据库系统的边界吗?
我认为我看到的未来与你看到的非常不同。一切都将关乎规模、GPU时间和处理前所未有的数据量以思考难题的能力。你看到我的博客了吗?
星际之门(Stargate)的宣布将是众多公告中的第一个。Dario Amodei在Anthropic也宣布了计算能力需要扩大100倍。这不仅仅是用于训练。系统二/长期思考将改变世界与数据的关系,并促使对更大数据量的需求。
Blocks & Files:VAST从零开始开发原始存储技术,然后是类似思考机器的软件栈。这个技术创意时期现在是否已经结束,从现在开始只有渐进的技术进步和业务流程的发展?未来的愿景是什么?
杰夫·丹沃斯(Jeff Denworth):我可以自信地说,我们拥有业务中最富有创造力和最雄心勃勃的团队。每一次客户互动都为我们提供了未来十年的更多灵感……我们很幸运能够与世界上最聪明的客户合作。假设我们已经变得自满、安逸和满足,这将是一个危险的假设。
我不打算通过电子邮件来阐述我们的愿景,因为我不认为这对我们双方都有任何好处,但也许下次我们见面时可以更多地谈谈未来。
Blocks & Files:你的阵列可以在C节点上运行应用程序软件,提供计算存储。这是否类似于将阵列变成该应用程序的服务器直接附加存储(DAS),从而否定了共享存储资源的基本目的?
杰夫·丹沃斯(Jeff Denworth):跨机器共享数据访问是我们所做的事情的核心。现代机器需要实时访问PB到EB级数据,以获得全局数据理解。你不能将这些数据固定在任何一台主机上。这些功能在哪里以及如何运行只是一个打包练习……我们喜欢效率,所以我们可以尽可能地整合……但DAS与我们的思维方式完全相反。分离式存储不仅可能,我们已经向世界证明,这是一种非常实用的方法,可以达到极端水平的数据访问和数据处理并行性。
Blocks & Files:你如何确定计算存储阵列中的计算资源大小?
杰夫·丹沃斯(Jeff Denworth):我们每天都在学习更多关于如何确定大小的知识。比如I/O负载、查询负载、功能速度、事件通知活动、QoS管理、RAS(可靠性、可用性和可维护性)等等。