九章云极DataCanvas侯飞冰:DATACANVAS AIDC OS,定义新AI时代的智算操作系统

九章云极DataCanvas高级产品总监侯飞冰

近日,由DOIT传媒主办的2024数据基础设施技术峰会在成都圆满举行。在“智算中心技术创新论坛”上,九章云极DataCanvas高级产品总监侯飞冰分享了主题为《DATACANVAS AIDC OS定义新AI时代的智算操作系统》主题演讲。

算力作为新质生产力,已成为挖掘数据要素价值,推动数字经济发展的重要驱动力,智算中心的战略性地位愈发凸显。DATACANVAS AIDC OS智算操作系统,作为智算中心的“中枢神经”,有效管理、调度各种算力资源,提供智算服务,落地各类智算应用。

以下是侯飞冰的演讲实录:

回顾一下2022年11月,OpenAI发布了全新的对话式生成式大模型ChatGPT,去年3月,OpenAI又发布了ChatGPT4多模态大模型。ChatGPT4不仅可以阅读文本,同时还可以阅读图像,并且将结果输出,以文字形式输出给用户,体验非常好。今年2月,OpenAI更厉害了,发布了文生视频大模型Sora,Sora一经发布就带来AI圈的轰动,从中 大模型越来越聪明了!

我们也发现大模型的参数量正在与日俱增,且为指数级地增长。我们有一个公式,可以预测出来大模型训练的算力需求:


训练算力=训练Token数×大模型参数×6
推理算力=调用大模型的次数×每人平均查询Token数×大模型参数×2

随着大模型参数的指数级增长,包括训练语料的增长,大模型带来对算力资源需求的井喷,通过预测全球大模型云端推理的算力需求量从2023年到2027年年复合增长率在13%。先看美国的情况,根据美国安全与新兴技术中心的预测,预计2026年6月至11月训练大体量高智能的大语言模型的成本将超过美国的总GPU。在中国,根据IDC预测,到2026年智能算力规模将进入ZFLOPS级别,达到1271.4EFLOPS。

算力已经成为了新质生产力,成为挖掘数据要素价值,推动数字经济增长的驱动力,中国已经进入大规模的算力建设时代,各个地方政府和国家都出台了各种政策,对人工智能产业提出了更高的要求。

智算中心成为了中国经济发展的重要新型基础设施,智算中心建设也已经为了数字经济高质量发展的重要支撑,我国的数字经济蓬勃发展。算力作为一种关键技术力量,将带来巨大的技术变革和赋能效应;智算中心也已经成为了提升国际竞争力的关键基础设施,也是衡量综合国力的重要指标。智算中心也已经成为了智慧城市的必然选择,智算中心作为公共算力基础设施,面向政府、企业、个人用户等多用户群体,提供围绕智慧城市的管理、运行的相关人工智能所需要的算力服务、数据服务以及算法服务,整个智算中心地位这么重要,它承载的任务有哪些。

这个是我在《算力基础设施高质量发展行动计划》摘录的4条,第一个是完善算力综合供给体系,第二条第四条讲的都是算力相关的东西,提升算力高效的运载能力,深化算力赋能行业应用,从这个四点任务来看有三点和算力相关。

智算中心的核心价值取决于两点:算力资源算力水平。作为智算中心,首先必须要提供比较稳定高效的算力资源,并不是说我拥有一堆硬件资源就可以,并不是说一堆GPU服务器堆砌在一起就能形成有效的算力。英伟达的发展非常快,整个硬件资源的PK最终会延展到软件领域的PK,最终会迎来软件定义算力的新时代,那么智算操作系统应运而生了。

近日,九章云极DataCanvas AIDC OS正式发布了,我们认为可用、好用、经济的算力才是用户最终需要的算力,这是国家信息中心发布的智算中心架构图,它展示了DataCanvas AIDC OS提供的能力范围。我们是基于底层的硬件资源生产算力、聚合算力,我们提供异构算力的纳管和调度,并且向上提供释放算力、提供AI服务,DataCanvas AIDC OS智算操作系统作为智算中心的中枢神经,主要核心功能是对底层硬件资源的纳管,还有软件协同,最大化地提升GPU算力资源的利用率。我们面向于下沉智算基础资源,能够高速高效的调度算力资源、存储以及网络资源,向上针对于智算中心的终端用户提供人工智能大模型的工具链,包括大模型需要的数据准备,以及模型开发训练微调推理等过程。

AIDC OS不仅支持九章云极DataCanvas自研的“通识+产业”白盒大模型矩阵Alaya,同时支持开源大模型的框架,同时欢迎业界的生态伙伴加入到行业里面来,能把自己的大模型以及应用部署到智算操作系统之上,一起提供AI对外服务。

DataCanvas AIDC OS主要是用来做底层硬件资源的纳管,软件的协同,同时为智算中心的业务提供支撑,并且能够提供大模型加小模型低门槛的训练和推理,大家都知道在智算中心的建设过程中,有比较大的两个难题,第一个是成本非常高。举一个例子,比如建设1000P的计算资源,大家猜需要多少成本,我们做过一个粗略估计,大概建设1000P的智算中心需要5.5亿,运维成本在1000-1500万之间,所以建设一个智算中心成本非常高昂,在这种情况下只有不断提高算力资源利用率,并且把AI大模型落地到千行百业,给我们带来经济回报才行。第二个难点是刚刚并行科技的嘉宾说到了,在大模型训练过程中,由于规模非常巨大,需要大规模的算力,这样对集群的稳定性要求也是非常高,基于这两个痛点,DataCanvas AIDC OS操作系统提出了五大核心价值,下面我为大家一一介绍五大核心价值。

第一个价值是告别裸金属,这里告别裸金属并不是不用裸金属,告别裸金属的意思是在裸金属之上能够做得更好,能够提供更加丰富的算力资源。首先能够最大化地利用GPU资源,提高GPU的使用效率,能够最小颗粒度地调度GPU资源。比如说能够做一些内存分享,然后还可以分享计算单元等等。另外对于这种大规模的大模型训练来讲,九章基于自己的最佳实践,以集群为优先来调度GPU资源,甚至跨计算中心的调度,做集群之间的联合调度,DataCanvas AIDC OS做到开箱即用、灵活适配。

第二个价值是为AI而生,经常有人问我,我们的DataCanvas AIDC OS的核心价值是什么,和其他厂商的差一点和竞品优势是什么,九章云极DataCanvas一直是深耕在AI领域,我们从产品设计之初,我们的理念是以终为始,我们就是为AI而生,DataCanvas AIDC OS是先列出整个大模型训练生命周期过程当中的各个环节,比如说数据准备,模型训练、微调、部署推理等等,我们针对每个环节都做了一个全局的加速优化。

第三个价值点做了全局加速优化,在生命周期当中做了通信加速,比如我们采用了梯度压缩的方法,将通信量降低了2到3倍,这样让训练效率提升了15%左右,还用了内存优化,其中有一个用的是算法,这个算法在多GPU训练的时候降低内存的冗余,将有限的资源训练更大的模型,来提高计算资源的使用率。还采用算法加速,比如我们采用混合精度,将16位还有32位的计算揉合在一起,这样也是可以加速,还采用了内核加速,变异优化、并行加速、三级缓存等等,全局加速优化下来,可以讲集群的训练效率提升100%,GPU单卡的利用率提升50%,模型的推理速度提升4倍,吞吐量提升5倍。举一个例子,以九章自己的大模型训练为例,刚开始大模型训练用了62天左右,后来在不断加速优化,还有优化AIDC OS之后,同样规模的模型,用同样的Token,时间缩短到39天,这样把训练成本降到原来的62%,所以这些都是基于九章云极DataCanvas的最佳实践。

第四个价值点是异构算力的纳管与调度。大家都知道我们训练大模型是处于计算密集型,对算力要求非常高,所以这时候需要比较高性能的GPU,比如像HC的GPU,当我们做推理的时候,相对来说不需要那么高的GPU,比如可以用4090这些芯片做推理,当然还有现在的国产信创加速卡有很多,基于这种情况AIDC OS是能支持海量的异构算力的纳管和调度,从训练到推理。我们的调度采用很多种调度的算法,包括优先级调度,优先级调度不是先到先得的原则,优先级调度会参考很多的因素,包括任务提交的时间,以及资源申请量等等各种因素综合起来,做智能化的优先级调度,我们也支持分时分片GANG调度,还有分屏调度,不仅仅基于当前作业的情况,还会基于历史作业的运行情况做公平的调度,从长期来看会更加公平一些,我们支持基于物理网络拓扑结构的调度,还有故障感知调度。

第五个价值点是1度算力,这个概念可能比较新一些,这是九章在发布会当天发布的一个新概念,叫1 DataCanvas Unit,简称就是1度算力,最近国家都在说我们要像水和电一样地用算力,让算力成为一个基础设施。基于这种情况,当我们讲到电的时候,我们计量计价单位会讲1度电,水是1吨水,煤气也是,这个是全国统一的,可能每个地方的定价不大一样,甚至会有阶梯定价,但是都是一度电、一吨水,这个标准不是变的,针对算力来讲也需要这样一个标准的计量计费单位,所以九章云极DataCanvas提出了1度算力的概念。

当全国各地都在建计算中心的时候,最终会组成一个算网,算网就意味着要做到算力的互联互通,算力的互联互通怎么样方便算力的流通和算网内部的结算,这个就比较重要,当我们有DCU之后,方便于各个计算中心之间网络内部的结算。这个1度算力有一个重要意义,当我们训练大模型和做模型推理的时候,经常遇到程序有8个会停下来,可能要调试代码等等,在调试代码的过程中其实没有用到算力资源,是不是还要付费呢?理论上是不行的。我们希望真正用到这个算力,然后才去付钱,没有用这个算力就不应该付钱。

九章云极DataCanvas提出买到即用到,也就是说根据实际使用算力资源的情况收费。九章云极DataCanvas不光提供算力,还提供算力的标准度量,甚至你买了算力之后,对外提供AI服务,我们会确保对外AI服务的质量,真正做到买到即用到。

九章云极DataCanvas的优势在AI领域,我们的优势是在算法的基建化、服务的智能化,我们的目标是为算力中心赋予“智芯”,构建高效的智算操作系统,提供更多更便捷高效的智算服务,我们非常欢迎伙伴们一起加入到这个智算操作系统平台,共建AI新生态。谢谢大家!

以上是侯飞冰演讲的完整整理。