相信“蓝色巨人”,IBM存储永远在线

站得高才能够看得远,作为“蓝色巨人”,IBM数据存储领域拥有足够多的积累和荣耀,无论何时何地, IBM对存储的洞察都应该引起我们高度关注。不仅如此,IBM存储产品和解决方案也总会带来意想不到的惊喜和收获。

2023存储峰会(FMW)期间,存储在线总编宋家雨特邀IBM副总裁、大中华区存储及中国区Power业务总经理候淼结合闪存技术市场的热点进行了专访。

存储在线总编宋家雨(左一)与IBM副总裁、大中华区存储及中国区Power业务总经理候淼(右一)新闻会客厅访谈

宋家雨最近IBM存储在品牌方面有些调整把原来IBM Spectrum调整为IBM Storage这个动作的背后是怎样的一个战略布局

侯淼IBM存储刚刚调整了整个产品线命名,从IBM Spectrum调整为IBM Storage,精简了。IBM存储产品线比以前更加专注了,通过命名的改变,希望能够使品牌更加突出,突出IBM+Storage。因为我们看到,数据增长变得越来越快,数据量越来越大,IBM Storage业务会成为重要的业务发展领域。

IBM存储品牌战略调整,跟IBM公司整体战略是分不开的。

IBM在2019年收购了Red Hat,今年我们刚刚发布了watsonx, IBM整个公司战略围绕两大主线来展开,一个代表混合云,一个代表人工智能。

混合云主要是围绕红帽OpenShift底座,为客户打造一个端到端的混合云策略,上可以支持微服务,对下可以支持容器,这样把客户的硬件、软件资源统一结合起来,这是IBM很重要的策略。

针对人工智能,特别是今年7月份IBM刚刚推出的watsonx,它分为watsonx.ai、watsonx.data和watsonx.governance。其中,watsonx.ai主要是作为AI开发平台,为客户生成模型提供相关的底座和支持,包括模型的训练、验证、调优和部署。watsonx.data是湖仓一体的结构,跟存储也是紧密相关的。watsonx.governance为整个人工智能应用提供监管,包括管理的平台。这三个产品会支撑IBM战略的另外一个主线,也就是人工智能。

IBM现在有基础架构和软件业务,还有企业咨询服务,所有这些部门的产品和解决方案都是围绕以上两个主线来展开,我们会比以前更加专注。围绕这个主线,IBM对存储整个产品线进行了调整,以前我们是以盘(闪盘)、带(磁带)、闪存这样的语言进行描述,未来我们的产品线会围绕三块: 第一块是人工智能存储;第二块是混合云存储;第三块是数据保护存储。我们实际上把硬件、软件结合,首先会有一个软件的平台和引擎作为关键的组成部分;然后是相关硬件,包括盘和带,为客户提供针对AI场景、混合云场景以及数据保护场景的解决方案。

宋家雨:您能否结合这两个场景,介绍一下IBM存储的一些独特思考?

侯淼:如果把数据源的数据分成两类,一类是结构化的,一类是非结构化的,实际上你会发现非结构化数据增长是非常快的,这里包括像文件、对象、声音、图像等数据,对此,我们投入技术、研发力量帮助客户去寻找这种这种非结构化数据的价值,提供相应的管理方案。

人工智能处理的数据大部分(80%-90%)都是非结构化数据,针对这些数据的管理和应用,IBM存储的一个主要解决方案就是IBM Storage Scale的产品家族,来优化和简化数据的访问和存储。

    还有一个角度是帮助客户去实现数据的云化,这里最核心的就是容器化。所以我们的混合云存储,特别是我们推出的闪存产品,针对容器化去支持红帽OpenShift混合云平台,满足客户在混合云和私有云构建。

现在混合云应用有一个比较大的变化,就是很多客户开始逐渐将应用容器化,对于硬件来讲,容器化的好处在于能够大幅度地去提高硬件的利用率,因为以前一个机器支持几百个虚机就可以了,但是容器化能支持上千规模,使利用率能够大幅度提高,减少客户在硬件上的购买成本,这是它的重要价值。

随着软件应用变得更加敏捷,部署也能够越来越快,不需要花很多周期和时间。围绕这样一个改变,很多客户使用容器化软件去实现生产系统。对于生产系统,不可避免会谈到备份、容灾,包括恢复的功能,而这也是IBM最强的部分。

通过我们的软件跟OpenShift相结合,能够支持客户实现生产系统的容器化,然后做容灾备份一整套解决方案。换句话来讲,我们是为企业客户在做混合云时,提供端到端的架构,使它能够不单单能满足容器化带来的好处,而且也能满足生产系统所具有的可靠性、稳定性和安全性的要求。

宋家雨:围绕watsonx,在AIGC领域,IBM存储有哪些独特的优势和思考,能不能分享一下?

侯淼:实际上人工智能这几年是一个高潮,GPU 被大量在 AI中使用。IBM在人工智能方面,倡导从+AI到AI+,就是以前是在原有系统上加一些人工智能的功能,今天要做的是用人工智能去替代原有的系统,使它更加自动化。

我们有一个基本的框架,这个框架就是数据、模型、算力和存力。针对基础构架去支持大模型,通过生成式的大模型,支持数据的分析和提炼,其中基础架构是最主要的平台。它有两个关键支柱,一个是算力,一个是存力,我觉得这个说法可能只在中国有,因为在国外都叫做computing、Storage,中国语言则体现出一个“力”。

存力包括两部分:一是要有一个存储平台,是能够进行数据的存取;二是“力”,代表一种能力,这个能力能够支持人工智能的模型和算力能力的发挥,所以在人工智能存力里,对存储有不一样的要求。一方面是要求高性能,因为现在GPU会越来越快,而且GPU对存储的要求是吞吐量越来越大,想要数据的话能及时提供 I/O。GPU资源越来越贵,存储的价值就在于怎么能够减少GPU的等待时间,减少GPU等待带来的浪费,这很关键,所以人工智能存储第一个特点就是要高性能。为了做到高性能,这类存储要支持英伟达的GPU直连,通过支持DGS协议,使企业的数据和性能能够提升一倍以上,这是第一个高性能。

第二个就能够进行线性水平扩展,你很难能够去预测未来的增长,所以所有这类系统都是分布式的。要求存储也要是分布式,能够线性扩展,但是分布式跟线性扩展是两个概念。分布式是能够扩展到上百、上千个节点,但是当你扩展到上百、上千个节点时,它的性能是否能跟得上?IBM Storage Scale软件能解决分布式存储扩展时的性能问题,实现线性水平扩展。

安全性、备份、可靠性则是第三个需求。我觉得这三个结合起来,这个存力就能够支持企业在人工智能领域所需要的基础存储要求了。

 宋家雨:您能不能具体介绍一下IBM存储和英伟达算力解决方案的合作?

侯淼: IBM跟英伟达公司的合作由来已久,就在近几年,2018年IBM和英伟达一起联合支持美国能源部的项目,当时是用IBM的Power CPU,采用英伟达NVLink总线进行互联,英伟达选中了Tesla GPU加IBM Storage Scale System(下文简称为 SSS,原ESS)产品,这三款产品结合在一起。因为人工智能计算跟高性能计算是类似,都需要很强的算法,无论是浮点(运算)还是整型(运算)。英伟达在它的一些方案,包括DGX SuperPOD都是采用IBM的SSS产品作为存储的存力。

    IBM现在所发布的SSS产品也拿到了英伟达的官方认证,支持DGX SuperPOD的GPU直连,而且有完整的测试,从两个节点,到4~8个节点,我们推荐不同类型的产品组合。IBM单模块能够去支持125 GB/s的带宽传输能力,这是现在业内最快的。同时我们能够实现上百、上千个模块的水平线性扩展,所以这个方案能满足英伟达GPU对数据存储的需要。

    回到刚才我谈三个能力,有一个是高性能,包括刚才我谈到支持GPU直连,包括最快速的单模块125 GB/s传输能力。另外一个能力是线性扩展,IBM现在的一个主要解决方案是IBM Storage Scale存储软件,以前叫GPFS,这个软件是分布式文件系统,客户比较多,它的特点在于:第一,它是全域命名管理,能够支持不同存储协议的数据能够交互,包括像云原生S3、NFS等,它有特殊的本地缓存的算法,能够在你访问远程之前提前去预测这个数据是不是在远程,能够先拿到数据。通过这种方式,即使水平扩展上百个节点、上千个,它能够通过预测提高性能,尽可能少衰减,这也是它非常大的优势,也是国内包括国外很多分布式存储用它作为核心数据底座的原因。

第三,很多客户用人工智能进行训练之后,特别是进行推理和使用,数据会越增长越快。这些增长的数据,要考虑归档和备份的问题。IBM较其他存储的厂家,我们有比较深的、完整的一个存储产品解决方案,我们通过IBM SSS 3500产品作为一级存储,去跟英伟达的DGX 服务器配合使用。

同时,当数据变得越来越多,很多数据使用频度降低时,数据开始从热数据变成温数据和冷数据,我们就开始考虑后面的归档,包括备份方案,这里包括文件归档、目标存储的归档,还有系统通过自带归档,我们有一整套的方案去满足客户对人工智能存力的要求。

宋家雨:在未来IBM存储的规划之中,生成式AI部分会更加依赖于Watson吗?

 侯淼:我觉得您说了一个很好的题目,Watson这个名称来自IBM的创始人老沃森,后来也成为了IBM研发实验室的名称——IBM Watson实验室。今天,Watson已经成为IBM人工智能的统一品牌。

现在我们提出叫watsonx,之所以是X的话,是希望我们有各种不同的场景,不同的方案,能解决客户更多的问题。围绕watsonx它的三个组成部分,第一个是支持生成式AI的开发平台,叫watsonx.ai,第二个是watsonx.data,把数据湖和数据仓库,湖仓一体来结合。第三个是watsonx.governance,跟整个监管包括合规相关的。

跟存储有比较大关系的是watsonx.data,这里牵扯到不单单是要解决人工智能对存储的要求,而且也要解决数据的管理,数据的访问,整套解决方案。围绕这块,用到了不单单是人工智能存储,也会用到云,用到数据备份、数据保护。IBM watsonx希望针对企业级的人工智能应用提供端到端的技术支持和行业专长。

现在市面上有一些工具可能只是工具,用在企业的话,会有很多问题。包括这些工具的使用,数据的产生,数据的保护,包括维护以及监管的要求。

IBM的理念是,我们提供watsonx产品家族是满足端到端的需要,特别是企业客户,当你不具备那么强AI的研发能力,通过IBM产品组合,能够从生成式的AI模型,到最后满足监管的要求以及数据被保护等各个方面,这是我们提出watsonx整个的想法。

   watsonx是7月初刚刚开始上市的产品,国内现在在推广阶段,现在有一些国外的案例,主要是客户通过生成式AI模型解决行业一些问题。比如:制造业生产线中缺陷的判别,医疗影像的识别,呼叫中心对客户诉求的自动化应对和回复。我们现在看到针对这类行业应用,所有模型都有它的行业特点,发生很多交互关系,往往要跟客户业务紧密结合,去产生一个合理、可落地的一个模型。

    关于数据,我们发现,不单单是企业对AI的使用要求,这些客户本身的海量数据,比如,一个银行的呼叫中心可能也有银行帐户的信息,包括信用的信息,而这些信息往往存在数据库里,所以IBM watsonx.data面对的数据对象不单单是非结构化的,还有一些结构化的,对数据的保护要求也不一样,可能你跟客户的通话本身是敏感的,要保护。但是跟客户银行帐户的信息相比,可能这里要求的保护级别更高。怎么样把这些结合在一起,就变得非常重要了。

我们现在看到watsonx.data对存储的要求,会比单一的系统来得要复杂,因为除了牵扯到模型所产生的,跟GPU配合所需要的存储结构以外,还需要后台其他的存储连接,包括跟它的数据库存储,包括怎么样整体上为客户去做备份,做数据保护,所以我们针对人工智能AI的核心软件Storage Scale,后台既可以接闪存,也可以接对象存储,也可以接磁带,这样跟客户整个系统相结合,不单单是提供AI存储的本身,而且提供湖仓一体的存储架构。

宋家雨:最后一个问题想问一下侯总,除了目前我们讲的混合云、AI存储之外,安全也是一个特别需要关注的话题。IBM Storage也有一个产品叫Defender,这样一个产品是不是能够抵御勒索病毒攻击呢?

侯淼:IBM有一类产品,我们叫它数据弹性存储,这里核心软件就是IBM Storage Defender。实际上是两个层面的事情,一个叫做数据安全,一个叫数据保护,这两个是不一样的。

数据安全很大程度上是主动的,它要去防止被黑客所袭击,怎么样能够进行主动探测,它是一个主动行为。数据保护相对来说是被动行为,怎样能够在同时情况下保护我的数据,能够尽可能减少损失。IBM是把这两块结合在一起了,就是Defender所要解决的问题。