绿算技术副总经理黄飞:"异构存力调度"构建先进存力中心

【编者按:由DOIT传媒主办,中国计算机学会信息存储专委会、武汉光电国家研究中心、百易存储研究院支持的2024中国数据与存储峰会,2024年11月8日,在北京新云南皇冠假日圆满举行。

大模型的运行离不开海量数据支持,这些数据往往以不同形式存放在各处。要充分、及时地利用这些数据,就需要高效的管理与调度多种存储资源的能力。峰会主论坛上,绿算技术副总经理黄飞为发表了《”异构存力调度”构建先进存力中心》的主题分享。

以下内容根据速记整理,未经本人审定】

黄飞:非常感谢DOIT提供了这次跟大家共同分享的机会。

绿算技术是存储行业的新势力企业,面向于存算分离的方向。本次演讲着重探讨异构算力是否存在调度的可能、如何构建先进存力中心等话题,为后续存储行业的发展提供新的思路。仅仅是抛砖引玉,希望各位专家和各位大咖点评。今天的分享分为四个部分,先进存力的需求,如何构建先进存力,二是分级存储该如何设计,如何利用分级存储构建先进的存力平台,三是绿算技术的产品和解决方案,四是厂商赋能计划。

先进存力需求与对策

在当前,智算中心、数据中心建设面临技术自主和资源的配置问题、存储发展与区域的均衡问题、智能管理与数据治理问题、绿色节能与云存储挑战问题、数据共享与存储介质创新问题,以及资源调度与投资效益问题。其对策有三点,一是实现存力、算力和运力三种力之间的统一调度、统一协调,将网络、存储等资源合理地进行分配,提升算力资源利用率;二是依据业务主导的模式构建多级存力的建设,对性能、容量、热度、质量等多方面合理提供匹配存力介质,依据数据分类分级,构建多级存储机制,根据数据的冷热不同进行合理的分配,实现数据、存储的超精细化管理;三是加强超高速局域网、广域网建设。高性能并不一定代表存力,多级存力的构建以及形成多级存力架构的体系才能构成真正高级别的存力或者最终的存力中心,依托400G/800G以及TB级以上的网络,以及Roce、IB、iWARP互联互通。

数据存力中心的建设过程中,需要依据政策法规与保障措施,针对存力中心建设现状与挑战,根据发展需求,做好建设规划与布局,打造国家级存储能力基础设施。

对于异构存力调度平台规划,绿算技术提供了如下建议:

根据上图,需要将现有Server storage,比如HDD、SAN、蓝光、带库以及最新的NVMe、SSD统一纳入管理体系,构建不同的文件和管理系统,去适配用户的需求。通过对接口不断的调度,做到多种系统的平滑匹配以及数据的流转。当然,对外统一输出仍偏向于更多的转向NFS for RDMA的协议以及sunbus for RDMA协议,通过以RDMA为主的网络加强数据的快速流动。

异构存力调度平台还包括两方面管理内容。一是异构存力平台的实时性能、故障点、故障的定位,以及业务级快速恢复,二是在数据向异构调度平台里进行统管的时候,要知晓性能和对容量评估,包括要做数据的交易。数据仅存起来,不交易就是死的数据。国家已经开放公共数据,这是非常有意义的举措。

异构存力调度平台的建设,还这包括引入数据全生命周期管理的过程。

分级存储设计思路

AI业务对存储各环节有什么样的需求?

拆解后可以发现,原始数据收集部分需要的是海量存储,这部分可以采用传统机械盘加少量SSD组成混闪的模式构成数据的快速收集与存储;在数据处理部分,可以标准化简单清洗海量存储,在训练准备阶段,也就是往Kuda灌数据或者模型训练以及模型微调、模型推理过程中,对存储性能要求越来越高,如容量足够大、速度足够快、IOPS足够高等等。这种组建混闪的模式就是绿算技术针对AI训练的解决方案。

绿算技术在分级存储设计的方案分为经济型和通用型两种。

上图是一个经济性的分级存储。

可以看到,左上侧是一个包括英伟达与国产化产品异构的算力集群。绿算技术提供不同的介入方式,对前者采用GPUDirect技术,后者更多采用RDMA方式进行数据的接入。由于采用文件系统管理更方便,但经过文件系统以后会发现性能衰减非常非常快,所以绿算技术使用分布式块甚至裸块的方式,直接把数据速度加载到极限,具体方式是,通过一个PCIe4.0网卡连接,最大32GB大B的带宽输入,以空间换时间,加速数据的读取与写入。

对于加载了这种像Last或者GPFS并行文件系统,绿算技术将其下移作为二级存储,提供大量的数据保护能力,一旦出现子资源崩溃现象,就可从二级存储里把整个过程的CheckPoint数据或者相关的Kuda数据拉回到一级存储快速读取。测试数据显示,以A100 PCIe卡的数据读取,12块3.0的SSD就能做到一块A100卡的1秒CheckPoint读取和写入。

在推理业务解决方案中,绿算技术把推理数据和推理服务器直接裸挂载,所有训练好的模都作为右侧的模型仓库使用,所有的数据直接在完全加速的SSD上运行,此举相当于为所有的推理服务器加载立一个大型的Cache,实现整体速度的推理模型快速加载。

整个过程离不开异构存力平台的调度的平台。

上图是绿算技术与华瑞指数云共同打造的通用型解决方案。

华瑞指数云在分布式块有很强的优势,以绿算技术高性能的硬件作为基座,将分布式块训练的结果直接推送到裸块卷上。对于推理结点厚的可以挂载镜像,实现整个速度的提升。

绿算技术希望跟更多合作伙伴共同打造相应的针对AI场景解决方案。

产品解决方案

绿算技术的产品分为两代。

第一代产品是平板式的,形态一性能实现了的升级,在裸设备的情况下可以做到3240万的单机IOPS、144G的带宽,读取时延20微秒左右,整机功耗400瓦,形态上改变了原来镶在板上的设计,形态二是使用了大量的PCIe,可以插ACIC卡、FPGA卡也可以插DPU,包括英伟达BlueField以及各种PCIe卡。最新的进展是两颗PCI swith加上大量PCIe插槽,实现了更高速度。未来还将陆续改变产品形态,产品之间完全PCIe互通,提供完整的NameSpace给所有的软件厂商。

在软硬自由度结合业务性能提升方面,绿算技术提供两种模式,一是传统服务器加存储盘或SSD的形式,支持SCM,满足用户对性能的最优要求,二是针对DBU厂商,这个方案其实也是Wasdata主推的,通过把Bluefield国产化的DPU安装到GPU服务器中,将SDS控制程序放到远端,直接调取存储的极限速度,去掉尽量多的数据路径,实现数据的高速加载。

伴随数据的迁移过程,未来数据智算中心将会越建越大。如果用户自建的智算中心算力不足,可把共用的算力中心做数据的模型训练,但是这涉及数据安全与大量数据迁移的问题。绿算技术提出数智魔方解决方案,通过1.2T的带宽快速的将训练数据搬迁到数智魔方的设备上,拖动设备快速的实现多地数据的转运过程,适应自有算力中心和公有算力中心匹配的方案。

厂商赋能计划

绿算技术推出的厂商赋能计划,包括两个方面内容。

一是高性能硬件整体解决方案的服务。通过提供全程硬件配置解决方案,从服务器、IO服务器到硬件设备,甚至包括设计PCIe结构;二是对于特殊的外形提供非标硬件全程定制服务,包括标准件的OEM以及PCB定制化的服务。

绿算技术认为,要打破各厂商和行业之间的隔阂,应该像数据与存储大会,把行业相关的企业聚集起来,共同合作,打破壁垒,实现中国存储、存力行业的发展,真正为国家做出贡献。