本文根据 XSKY 星辰天合高级副总裁张旭明在“算力与前沿技术创新发展论坛”上的演讲内容整理,略有删节。
图 1 星辰天合高级副总裁张旭明在论坛上发表主题演讲
这半年以来,跟人工智能相关最火热的概念就是大模型,他们固然对 GPU 算力有着非常突出的需求,但是在另外一个维度来说,也对存储有着不一样的需求,需要在数据中心层面实现算力与存力的协同。
人工智能应用,尤其是在大模型领域,在数据层面有着几个显著的特点。其一是参数规模特别大,其二是数据来源非常广泛,这造成了非常大的数据量,因此他们在存储层面,主要有着三方面的需求:
- 便利的数据汇聚与共享,如何将所需海量数据进行有效的保存,并且汇聚到一个中心,以便进行处理,然后将其分享出去,这是一个很高的门槛;
- 存储需要足够的高扩展性和高性能,毕竟,对于 AI 训练而言,时间和效率,是非常重要的;
- 在保证性能的前提下,解决方案需要具备足够好的性价比,否则无法真正实现大规模商用。
以三种 SDS 产品,应对 AI 数据存储需求
星辰天合的众多客户基本上会采用三款产品来解决其 AI 数据存储的需求,以对象存储来承接海量的数据、以高性能文件存储来做模型训练,同时将相关的业务软件运行在我们的计算产品之上。
这也是星辰天合在 AI 领域的通用解决方案,该解决方案接入 AI 模型训练的完整数据流程,从数据收集、数据治理到训练评估,一直到数据归档,星辰天合都可以提供相应的数据存储服务。
除此之外,星辰天合还可以提供众多数据管理的功能。比如说,
- 通过数据迁移的方式,我们可以帮助客户从各个数据源端把数据汇聚到了我们的对象存储上;
- 在数据完成提取、抽取、清洗等步骤之后,人工智能对存储的需求就会变成高性能,毕竟,存储性能太低,就会让上层的 GPU 等待时间过长,在这个阶段,我们提供高性能文件存储协议去支持,同时也支持 AI 框架的各类生态;
- 在后一个阶段,我们可以提供数据归档、复制在内的相关数据流动功能,将计算的结果数据进行长期保存。
从高校、自动驾驶到先进制造,SDS 服务各行 AI 应用
在高校领域,由于资金有限,高校进行相关 AI 应用探索时,会格外注意成本问题。在某高校,他们希望解决两个问题,第一是利旧原有的硬件,第二是解决写性能不足的问题。这两点,正好都是软件定义存储所能够体现的价值。
图 2 星辰天合高级副总裁张旭明分享 SDS 在 AI 领域应用案例
一方面,星辰天合的软件定义存储产品可以整合原有的硬件存储节点,将其形成一个高质量有效的存储资源;另外一方面,星辰天合的产品能够提供一个目录预取,存储产品可以感知业务需要的数据。在很多 AI 训练时会一次性读取一个训练集的数据,如果存储产品能够感知相关业务需求,相关后续的训练就会更加高效。
在自动驾驶领域,自动驾驶的汽车上面载有激光雷达和摄像头,在路面运行时,会将所有的路测数据收集回来供后续研发使用。这些数据量非常大,以星辰天合的某自动驾驶领域的客户举例,他们每天会有数百 TB 的数据增量。这些数据收集回来之后,以对象存储的方式存储,清洗完之后迭代其数据源,导入到高性能文件存储中以适配它的模型训练。
在先进制造行业、金融行业,我们所服务的企业也是类似的场景和需求。我们也同样提供了一种方案,由对象存储来承接其训练元数据,清洗完之后的数据在高性能文件存储中训练,训练完之后历史数据重新再利用对象存储归档。
从数据存储、数据流动,到整合数据生态平台
作为技术领先的数据基础设施提供商,星辰天合以“数据常青”为使命,始终专注于软件定义存储领域,以数据价值为核心为客户提供数据服务。
图 3 星辰天合以软件定义存储为客户提供数据服务
为更方便理解星辰天合所提供的产品和服务,我们将数据服务分为了三个层次:
- 第一,星辰天合可以帮助客户构筑数据存储平台,能够提供扩展性、高性能、敏捷性、灵活性、低成本的数据存储系统。
- 第二,星辰天合可以为客户提供数据管理平台,客户的业务所使用的是数据,需要我们提供的是数据服务。在传统模式中,所有的数据存在于硬件介质中,其本身有生命周期,当硬件老化之后就可能要被替换。而软件定义存储将数据存在软件中,硬件的更换迭代不影响给业务提供数据服务;此外,需要将数据快速出现在业务想要访问它的位置,以供业务进行数据分析等,因此数据的智能流动是新一代存储架构中的重要特性,而这已经脱离了传统存储的能力范畴。
- 第三,企业需要对数据生态平台进行整合,星辰天合努力兼容各种业务生态,包括云计算、大数据、人工智能,以及敏态发展各类容器的业务等,这也是数据服务厂商需要支持的。
通过在软件定义存储领域的长期创新与突破,星辰天合以丰富的产品和解决方案,帮助企业实现存力与算力的协同。 在大数据与人工智能发展极为迅猛的今天,为持续满足相关应用对存储的需求,星辰天合的存储也在不断地革新中。在今年,星辰天合也即将发布一个全新的全闪架构,带动存储系统性能的大幅度进步,在更高端的领域实现存力与算力的协同进步与均衡发展。