【SDS V6.4 特性专题】XEOS对象存储深度结合Alluxio 分布式缓存系统,GPU 利用率提高至 90%以上

近日,XSKY星辰天合的 XEOS V6.4 对象存储完成了与 Alluxio 分布式缓存系统的兼容性测试,旨在解决数据管理和加速方面的挑战。双方进行了深度的产品对接和联合开发,将 Alluxio 分布式缓存系统与 XEOS 对象存储的众多应用特性进行结合,推出一体化存储联合方案,以更好地支持 AI 场景下的数据管理和加速需求。

近年来,随着 AI、大数据的逐渐推广和完善,特别是 AI 大模型(LLM、多模态、文生视频等)的广泛推广,超大数据量的存储以及访问已经成为了企业面临的一个重大的技术以及成本挑战。

对象存储具有扩展性好、安全性高、成本可控等特点,成为了目前最热门的海量数据存储技术选型。但是对象存储在数据访问性能方面也面临一系列挑战,特别在 AI 模型训练场景下,数据访问性能的增强,成为了提升 GPU 利用率的关键因素,市场亟需一个能够和对象存储有效结合,兼具对象存储优势且性能卓越的一体化解决方案。

XEOS 与  Alluxio 数据平台的这一合作将为用户提供更高性能、更低成本、更灵活的数据管理和加速方案,有望推动 AI 技术在各个领域的应用和发展。

Alluxio Enterprise AI 与 XEOS 的强强联合

1.1 针对 AI 场景的数据平台 Alluxio Enterprise AI

Alluxio Enterprise AI 是针对 AI 相关场景的数据平台,可在本地、云、混合或多云环境中,支持无缝访问、管理和运行您的数据和人工智能工作负载。

智能缓存能力:Alluxio 推出的 Alluxio Enterprise AI 平台可以提供高性能分布式缓存系统,因此 AI 引擎等计算应用可以通过访问高性能 Alluxio 缓存提高数据 I/O, 而非相对缓慢对象存储来读写数据。其智能缓存策略针对 AI 等工作负载的 I/O 模式量身定制,可为整个 AI 等计算工作流提供高吞吐量和低延迟。Alluxio 可将 GPU 利用率提高至90%以上,使得数据与 GPU 周期同步,并加速模型训练和模型服务。

  • 无需数据拷贝:Alluxio 可快速按需加载数据,而非将数据复制到本地存储。这消除了数据加载对计算性能造成的瓶颈。通过高性能的按需数据访问,可消除数据副本并提高性能。
  • 节约成本:Alluxio 可以结合实际计算需要进行灵活的贴近计算侧的部署,充分利用闲置资源提供透明的数据访问加速能力,以提升计算侧的 GPU/CPU 利用率,用较少的成本达到更好的效果。
  • 无需重写应用程序:Alluxio 通过统一的命名空间对数据技术栈进行标准化,跨各类存储系统提供统一的访问模式,可以提供 S3/HDFS/POSIX/RESTful 等各种 API 能力。应用开发人员无需再考虑数据存储的位置,可以解耦计算和存储,而无需重写应用程序。

1.2  为海量非结构化数据而生的 XEOS 对象存储

XEOS 是 XSKY 推出的企业级对象存储产品。它支持无缝扩展、跨异构存储系统的统一管理、高性能访问、智能数据管理等功能,帮助企业轻松构建安全可靠、高性能、低成本的对象存储平台,满足日益增长的海量数据管理需求。

XEOS 作为全面的对象存储解决方案,是数据湖的理想底座,特别适用于 AI 场景的数据存储和管理。作为数据湖的底层存储,XEOS 具备以下优势:

  • 无限扩展能力:XEOS 支持分布式元数据和存储节点,可以轻松扩展到千亿级别的对象存储容量,满足海量数据积累的需求;
  • 高性能访问:统一的元数据服务、智能多级缓存等技术确保了快速的数据访问性能,满足数据湖中各类应用的需求;
  • 强大的数据管理功能:XEOS 提供了丰富的数据生命周期管理、存储分级、压缩等功能,有效提高了存储效率和性价比;
  • 卓越的数据安全:XEOS 采用 EC、副本、故障域等机制,以及加密、快照、回收站等技术,确保数据的持续高可用和安全性;
  • 智能生态支持:XEOS 与大数据、机器学习等应用高度融合,提供了图形化工具、自定义元数据、数据流动等功能,有助于构建端到端的数据智能应用。

XEOS 与  Alluxio 深度结合  充分利用二者优势的联合方案

XEOS 与  Alluxio 的融合充分利用了 XEOS 和 Alluxio 的能力,实现了更高性能、更低成本、更灵活的数据管理和加速方案。在完成两款产品的基础融合后,双方不仅仅完成了基本功能的验证,还基于 AI 场景探索 Alluxio 与 XEOS 进行深度结合开发。

2.1 高并发、高性能元数据操作

Alluxio 和 XEOS 进行了元数据接口的深度集成和调试,实现了百亿到千亿级对象基础上的高性能数据请求,支持数百万级高性能低时延 IOPS。

XEOS 提供了分布式元数据服务能力,Alluxio 提供了无状态可扩展的元数据存储和服务能力,都保证了良好的扩展性,同时 Alluxio 和 XEOS 在元数据相关接口集成上有效降低了非必要的接口调用以及非必要的数据传输,大大提升了元数据接口之间的交互性能。

通过 Alluxio 的无状态扩展性,每个 Alluxio 节点独立支撑相当数量的元数据的请求以及缓存,利用 XEOS 自身的高性能元数据访问接口能力,在不损耗元数据请求性能的基础上扩展元数据服务支撑能力,特别是在海量小文件的高并发数据请求下,既可以降低高并发元数据请求对 XEOS 的压力,又能大大提升元数据请求的服务性能。

2.2 缓存精准实时更新

Alluxio 和 XEOS 之间可以充分利用 XEOS 提供的数据集消息通知能力。当 XEOS 感知到数据发生变更时,会实时推送通知给 Alluxio。Alluxio 可以利用消息通知机制,精准快速地决定哪些数据需要被预热到缓存中。

这种基于消息通知的缓存预热机制,能够确保 Alluxio 缓存的实时性和准确性。应用程序无需人工干预,Alluxio 就能自动感知数据变化,快速完成缓存的更新和预取,大幅提升缓存的时效性,保障了数据访问性能,大大降低预热对计算的影响。

这种深度融合不仅提高了缓存的命中率,还最大限度地减少了不必要的数据移动,大大优化了整体的 I/O 性能和资源利用效率。通过 Alluxio 与 XEOS 的协同,AI 应用可以获得卓越的数据访问体验。

2.3 更高效的数据写入能力

XEOS 提供的追加写和随机写能力,与 Alluxio 缓存层的数据写入能力可以实现高度融合,提供更高效的数据写入能力。

XEOS 作为 Alluxio 的持久化存储层,不仅提供了海量的存储容量,还支持丰富的写入模式,如追加写、随机写等。Alluxio 可以充分利用 XEOS 的这些写入功能来优化缓存写入功能和性能。对于需要频繁更新的热点数据,Alluxio 可以直接以追加写或随机写的方式将数据写入 XEOS,避免了传统对象存储仅支持覆盖写所带来的性能瓶颈。这大幅提升了 Alluxio 缓存层的写入效率。

通过 Alluxio 和 XEOS 的深度融合,可以最大限度地减少数据在两者之间的不必要移动。这提供了更高效的数据写入能力,提升了整体的写入性能,大幅降低了 Alluxio 自身的写入开销,优化了系统的资源利用效率。

2.4 开放数据流动,提高数据流转效率

XEOS 凭借其出色的数据生命周期管理和流动能力,为 Alluxio 提供了强大的支撑。在最新的 6.4 版本中,XEOS 通过开放数据流动 API 进一步增强了这些核心优势:

通过 XEOS 全面的数据流动 API,应用程序可以轻松实现跨云厂商、NAS、蓝光/磁带等不同存储介质的数据流动。Alluxio 只需下发数据流动规则,XEOS 就可以负责执行具体的数据复制、分层、归档等操作。这种深度集成大大减少了 Alluxio 在读取数据后再次写入到统一文件系统(UFS)的开销,降低了整体的数据写入开销。

同时,XEOS 还提供了复制、分层、校验、QoS 等丰富的数据管理功能。通过与 Alluxio 的紧密结合,双方可以根据实际需求,优化数据的存储和访问策略,不仅提升了数据访问性能,也大幅提高了整个数据生命周期的管理效率。

XEOS 6.4 版本在数据流动和生命周期管理方面的创新能力,为 Alluxio 构建高性能、高效、智能的 AI 数据管理平台提供了坚实的基础。

针对 AI 的优势场景:以对象为底座且需要高性能文件访问

Alluxio 和 XEOS 的联合方案,针对尤其是在 AI 场景下,以对象存储作为底座,并且需要高性能文件协议访问的客户具备非常大的价值,包括如下四点:

  • 高性能数据访问

Alluxio 和 XEOS 结合,可以有效综合 XEOS 的高性能对象存储接口能力以及 Alluxio 贴近计算侧的高性能共享缓存层的能力,为计算应用提供高性能数据访问能力。

  • 海量数据存储

XEOS 提供了海量数据存储能力,Alluxio 提供了无状态可扩展的共享缓存能力,都可以随着数据存储以及数据访问规模的增大而扩展,既能支撑海量存储又能提供高性能的大规模数据访问能力。

  • 成本效益

XEOS 作为成熟的对象存储产品,利用一系列技术实现了更加经济的海量数据存储方案,有效降低了企业的海量数据存储成本;Alluxio 则可以通过灵活的部署策略,有效利用企业计算侧的高性能存储空间提供贴近计算侧的共享缓存能力,在不增加额外硬件成本的基础上实现高性能数据访问能力的构建。

  • 架构先进性

XEOS 构建了安全可靠、高性能、低成本的对象存储平台,Alluxio 基于 XEOS 提供了高效数据缓存以及数据访问平台,Alluxio 某种意义上是 XEOS 的扩展客户端,实现 1+1>2 的架构。

  • 可以利用 Alluxio 的统一命名空间实现多个 XEOS 以及 XEOS 和其他文件/对象存储系统的统一访问。
  • 可以利用 Alluxio+XEOS 提供更加高效的 POSIX 和 S3 协议的接口能力。
  • 可以利用 Alluxio+XEOS 提供原更完善的安全能力,包括和 Kerberos、Ranger 等集成。