IBM Storage Ceph:现代数据湖仓的理想技术底座

作者:周立旸,IBM 大中华区科技事业部存储软件产品总监

北京, 2024年2月1日 /美通社/ — 一年前,IBM 将 Red Hat 存储产品的路线图及团队集成至 IBM存储业务(IBM Storage)。在此期间,企业在扩展 AI 时正面临前所未有的数据挑战:在多个位置、以多种形式存储的数据量飙升,但数据质量较差。为了帮助客户解决这一问题,我们需要领先的解决方案对客户的基础架构进行现代化改造,以支持其数字化转型。这主要涉及在本地和云环境中提供一致的应用和数据存储。此外,还需要帮助客户采用云原生架构,实现公有云在成本、速度和弹性等方面的优势。作为业界领先的开源软件定义存储平台,IBM Storage Ceph(前身为 Red Hat Ceph)正是实现这一目标所需的基石。

在数据管理方面,软件定义存储 (SDS) 已成为一股变革力量。与传统的传统存储阵列相比,它具有许多优势,包括极高的灵活性与可扩展性,这非常适用于处理生成式 AI 等最新用例。借助 IBM Storage Ceph,用户可从底层硬件中提取存储资源,实现数据存储的动态分配和高效利用。这种灵活性不仅可以简化管理流程,还有助于提高敏捷性,适应不断变化的业务需求,并将随着新工作负载的增加而扩展计算和容量。这一自我修复和自我管理的平台可在行业标准硬件上运行,并大规模地提供统一的文件存储、块存储和对象存储服务。1 统一存储可以帮助客户将在独立文件或块存储上运行的传统应用,和包含单一设备对象存储的通用平台连接起来。

Ceph 针对大型单站点和多站点部署进行了优化,经过高效扩展可以支持数百 PB 级数据和数百亿个对象,2这对于传统工作负载和生成式 AI 工作负载至关重要。IBM Storage Ceph 可扩展、弹性且安全,支持更传统的工作负载,例如 Red Hat OpenShift 或 RedHat OpenStack 上的 MySQL 和 MongoDB,是支持数据湖仓和 AI/ML 开源框架的理想之选。这也是 IBM watsonx.data 包含 IBM Storage Ceph 768 TiB 裸容量授权的原因之一;前者是 IBM推出的开放、可治理、定制化的数据湖仓架构,并针对数据、分析和 AI 工作负载进行了优化。 

计算密集型和数据密集型工作负载的理想底座

非结构化数据的爆炸式增长和生成式 AI 相互影响,也相辅相成。Gartner 在其《2023 年企业数据存储的主要趋势》报告中指出:”到 2028 年,大型企业的本地、边缘和公有云上的非结构化数据将比 2023 年年中增加两倍。”3 非结构化数据(如文本、图像和视频)的激增为训练生成式 AI 模型提供了广泛而多样的资源,而生成式 AI 可支持用户从非结构化数据中提前宝贵的洞察。这种协同作用形成了一个反馈循环,生成式 AI 在大量非结构化数据的基础上蓬勃发展,而 AI 持续生成的真实数据则进一步丰富和完善人们对非结构化数据集的理解,从而促进创新和进步。

根据上述报告4,预计到 2028 年,将有 70% 的文件和对象数据部署在集成的非结构化数据存储平台上(高于 2023 年的 35%),组织需要能够加速数据提取、数据清理和分类、元数据管理和扩充、云规模容量管理和部署(如软件定义存储)的存储管理解决方案。IBM Storage Ceph 可实现无缝扩展,满足不断增长的数据需求;其自我管理功能确保系统适应不断变化的条件,轻松实现数据完整性。

为了在整个组织中加速和扩展数据和 AI,并最终改善业务成果,企业必须有意识地采用混合云设计(hybrid cloud by design)。这包括通过云原生运营模式在本地使用存储服务,以解决公有云上的部分企业级功能不可用、数据主权和成本等问题。IBM Storage Ceph 的”即插即用”架构简化了与现有基础架构的集成,包括各种平台、云环境、虚拟管理程序、开源数据存储库(如 Apache Iceberg 或 Apache Parquet)以及完整解决方案(如 watsonx.ai、watsonx.data 等)。新节点或设备可以无缝添加到集群中,而不会出现中断或服务停机。它为客户提供来一种简单高效的方式,来使用 watsonx.data 和其他新一代 AI 工作负载构建数据湖仓。 

Snap Inc.相关负责人表示:”在 Snap,我们对数据存储的需求越来越大,需要一个能够快速扩展、满足性能 KPI 且具有成本效益的平台。IBM Storage Ceph 凭借其简单可扩展的架构、易于管理的界面和经济高效的软件定义部署,成为我们的首选平台。IBM Storage Ceph 还拥有 IBM 的世界级专长和支持,这也是我们决定将其引入关键业务的一个重要原因。”

利用NVMe over TCP 技术实现快速数据访问

去年,IBM 对 Ceph 进行了几项重要更新,包括最近的 IBM Storage Ceph 7.0。新一代Ceph 平台为 NVMe/TCP 功能做好了准备。它保留了传统 NVMe 的低延迟和高带宽特性,可以在存储设备、服务器和云平台之间实现更快的数据传输,因此适用于需要超快速存储访问的应用,例如数据库、分析和内容传输;并且兼容传统的网络技术投资,从而简化了基础架构。这些优势将帮助客户采用软件定义的方法,在速度、敏捷性和经济性方面享受云端体验。

NVMe/TCP 可以帮助 Ceph 通过扩展架构弥补传统块存储的不足。借助 NVMe/TCP,Ceph 将与 VMware 等平台集成,帮助企业在自己的数据中心复制云架构,摆脱昂贵且固定的 SAN 网络和单片存储阵列。

Ceph 7.0 的其他新功能:

  • SEC 和 FINRA 合规认证的”写一次读多次” (WORM) 对象锁定,确保对象存储符合 WORM 合规要求
  • 非原生 Ceph 客户端的 CephFS 文件系统访问提供NFS 支持
  • 如需了解该功能的更多信息,请点击此处访问 IBM Storage 社区

借助IBM Storage Ceph 实现云规模经济

由于 IBM Storage Ceph 将数据作为对象存储在逻辑存储池中,因此单个集群可以有多个存储池,每个存储池都将针对不同的性能或容量需求进行调整。这样一来,客户能够更轻松快速地访问各种经过分类的内容数据和上下文数据,存储容量仅受组织基础架构规模的限制;与传统存储阵列架构相比,IBM Storage Ceph可消除硬件限制,实现大规模成本降低。

加快价值实现的步伐

IBM 更进一步简化了 Ceph 部署。借助 IBM Storage Ready Nodes for Ceph,该平台可部署为完整的软硬件解决方案,提供多种容量配置,针对运行 IBM Storage Ceph 工作负载进行了优化。我们消除了配置中的不确定因素,使其更易于理解、配置和管理。

IBM Storage Ceph 的发展是 IBM 存储的软硬件产品通过扩展的容量与性能,加速价值实现、优化客户成本的又一例证。