【算力先锋】并行科技董事长陈健:大模型必选超算架构算力,算力调度在于用户需求

激烈的“百模大战”伴随着科技同行对GPU算力的哄抢,大模型竞争的焦点竟不在大模型本身,而在算力。

积极建设算力基础设施确是一条看得见也做得到的突破路径,这引爆了从资本对算力概念股的热情。 算力服务“第一股”北京并行科技股份有限公司(证券简称:并行科技,证券代码:839493.BJ) 去年11月于北交所上市,作为国内领先的超算云服务和算力运营服务提供商,并行科技对算力这一路径看得更早、更清晰。

算力短缺的解法是什么?算力调度的难点在哪?AI大模型的计算成本如此高,有哪些方法能够降低成本?国产算力如何加速国产替代?

算力豹邀请并行科技董事长、总经理陈健博士接受专访,在近一个小时的交谈中,细致拆解上述问题。

▲ 并行科技董事长、总经理陈健博士

一、大模型训练底层为超级计算机,超算算力熟练上车

为获得AI大模型算力的“及时雨”,人们竭力榨干了GPU的每一滴算力,事实上,超级计算机也可以用于支持大模型训练。本(4)月初,微软和OpenAI的“Stargate(星际之门)”秘密计划被The Information曝光,双方准备花费1000亿美金建设超级计算机,在陈健博士看来,这一举动是在向全世界宣布:大模型训练的底层是超级计算机

▲The Information曝光微软和OpenAI的“Stargate(星际之门)”计划

诚然,大模型从训练到推理的技术链条都依赖于云计算中心,国内外不少科技巨头都横跨了云基础设施与大模型,尽可能地腾挪手中算力资源以满足大模型训练刚需。在陈健博士看来,超大规模的训练必须使用超级计算机他还指出一个现象,云计算及其服务商正在积极学习超级计算机的逻辑、超算业务的运营方式,对计算中心在进行改造。

“大模型训练需要的是一个明确的超级计算机,它的调度也是有利于推理的。”陈健博士说道。具体来说,超级计算的服务器之间的计算带宽配比更大,是云计算的计算网络带宽的数十倍,数据传输效率要求更高。在应对计算挑战方面,超算架构通过高速互联网络把GPU服务器紧耦合在一起,以并行计算技术实现单一大模型训练应用的高性能计算(HPC);而云计算架构主要对海量并发任务实现高通量计算(HTC),并不适合处理单一大规模计算任务。

伴随着我国超算的稳健发展,并行科技深耕超算算力服务十余年,并在大模型到来的这一刻交互出新的弧光。并行科技从2015年开始从事超级计算机大集群调度,从超算算力开始展开算力服务的版图,目前旗下超算云已成为中国科研用户首选的计算资源平台。根据弗若斯特沙利文,从收入规模角度,2021年并行科技通用超算云收入约1.3亿元,对应市场份额为20.3%,行业排名第一。

▲超算云竞争格局分析;资料来源:沙利文

算力服务是一种经营,陈健博士谈道,算力服务即将算力资源整包下来再寻找用户进行匹配。他透露,公司算力服务当前在总业务所占比例越来越大,去年公司收入接近5亿。

以“算力网络”为依托,以利用率为核心,并行科技的主要服务包括并行通用超算云、并行行业云、并行AI云以及设计仿真云等。根据用户需求,并行科技如今业务主要朝两个方向着力,一是聚集已采购的算力资源来服务用户,据了解,并行科技现已与广州、无锡、长沙、济南和深圳等地的各类超算中心建立稳定合作关系;二是在当前国产智算算力陆续上线的背景下,服务国产GPU所需的智算算力。

▲2023年,并行科技先后与宁夏联通、广东联通、上海联通等达成算力合作

目前,并行科技拥有约65万个超算云计算核心,具备成熟且强大的技术服务能力,与阿里云、华为云等头部企业处在同一梯队。陈健博士强调,此处提到的“云计算”指得是超算/智算的算力云服务,其底层架构是超级计算机,而不是传统认识中的云计算虚拟机。

二、大模型带飞AI云业务增260%,智算中心项目有序推进

大模型的加速迭代与应用落地,推动了智能算力需求的激增,大模型的链式反应也传导到智算中心。

▲AI训练量的增长趋势和中国智算算力市场预估

对于智算中心,计算能力是大模型对其的基本要求,运行稳定和高性能是核心需求。陈健博士分析说,超算算力和智算算力的基础架构一致,涉及的超级计算只需从使用CPU转变成使用GPU。无论是计算架构的相似性,还是大模型对于计算过程的性能要求,都契合了并行科技于2020年左右开启的AI云业务。

陈健博士提到“性能(Performance)是一切的根源”,这一主旨贯穿着并行科技的发展历程并行科技起家于性能优化业务,在2012年推出应用运行特征分析软件,解决超级计算机跑大型程序时的核心性能问题。彼时,并行科技在行业里的形象总是和“技术高端、“大规模的超级计算机”等词条关联着而对于更广大的普通用户,并行科技推出在线运维业务,帮助他们完成了全自动性能分析程序故障。

目光看向业界,2024年以来,一批大型智算中心项目建成运营,如此快的建设速度不禁让人担忧“智算中心想好怎么赚钱了吗”?陈健博士认为,“好用”的智算算力平台才能给智算中心带来实际价值,而关键不仅在产品端,也在用户端。具体来说,市场上专注于算力基础设施建设的主要为IDC数据中心供应商和云服务供应商,他们对维护软硬件工具和数据、优化国产GPU芯片等工作相对陌生,对于并行科技来说,完成这些任务仅需将原有的业务平移。

陈健博士透露,大模型市场给并行科技的响应非常好,去年公司的AI云业务增长2.6倍,在成本被原有CPU业务覆盖的情况下,公司提供给用户更有性价比的产品。以国内某知名大模型企业为例,该企业在2023年因英伟达GPU严重缺货, 使用500余张英伟达A100 SXM版GPU卡 ,但在跑程序时故障率很高。并行科技通过两步,一是自动化运维程序,二是使训练任务提升40%,保证了并行程序长期稳定且高性能地运行,帮助用户解决了问题。

值得提醒的是,根据云计算行业发展的经验,智算中心是一个投入巨大,回报周期长的基础设施类项目,期待看到公司在智算市场的发展。

三、超算中心利用率偏低,密钥是用户需求

近年来,算力建设如火如荼地在中国大地上进行着,新建设施将随着全国算力网络体系的完善而融入算力网络,为全国产业提供算力调度及服务。陈健博士分析说,“算力网络”的概念参考了电网,但算力的“力”以芯片的形式表现,无法像电一样被调度,能调度数据和算力需求,因此算力网络调度最核心的一环是将海量用户的需求理清楚。

算力建设“局中人”在状态高亢的同时更需要一份冷静。“没有用户需要算力,用户需要的是解决自己的问题。”陈健博士坦言。用户希望将应用软件的问题解决好,但他们不知道哪里有好用的算力。陈健博士担忧说,当前新建的算力中心并不研究客源、用户需求和应用运行。“国家投10个亿下去,一栋栋楼起来了,用户在哪里?很多用户起初提出需要多少卡,但建好后他表示‘真不好意思,我没钱了’,这种情况很普遍。”陈健博士认为,降低算力使用者的投入算力资源的成本和门槛,才能提振算力服务市场需求。

通过多年来在运维服务与运维软件方面的拓展,并行科技积累了大量超算中心合作伙伴、应用软件开发商和超算用户资源。据介绍,在市场推广方面,公司并行科技有100+位销售,专注于将算力服务推广给需要的用户,在客源方面有较强的优势。记者获悉,公司已累计为超过两万来自于科研教育、航空航天、智能制造、人工智能等各应用领域的终端用户提供超算云服务,用户包括清华大学、北京大学、三一汽车制造有限公司等。

四、全链路算力服务支撑国产GPU,三年追赶英伟达

2023年,国内AI算力紧缺,国产算力企业寻找突围的多种途径,多家A股上市公司在AI芯片国产替代上下了功夫。国产GPU与英伟达的差距还有多大?具体可行的提升路径是什么?

陈健博士评价说,目前国产GPU平台达到了可用的程度,但还需优化性能、提高性价比,三年后则有望与英伟达各占半壁江山。陈健博士分析说,由于芯片出货量、工程打磨时间等因素,国产芯片相较于英伟达等的部件失效比率偏高,所以在大规模训练时,用国产芯片建设的超级计算机需要竭力延长无故障时间提高加速比。由阿姆达尔定律可知,加速比到了天花板之后,无论增加多少CPU核都无济于事。但NVLink可以达到更高的加速比,这时国产芯片由于节点之间硬件软件适配的问题,拉开了和英伟达的差距。

▲阿姆达尔定律揭示的核心数和加速比图例

在国产替代的征途上,并行科技“真枪实弹”上阵,以最精装的团队支撑最前沿的国产GPU。据陈健博士介绍,并行科技的应用部凝聚百余位技术与研发人员,同时设立了国产算力事业部,支持国产算力上在原有CPU(英特尔、AMD)和GPU(英伟达)上的程序移植测试优化,所支持的国产GPU平台目前已基本趋于成熟。

组建出在国内数一数二的国产算力事业团队,并行科技靠得是多年来在产学研融合方面的努力和探索。在超算这条细分跑道上,并行科技从2013年开始承担超算人才培养和选拨的责任,举办多个超算人才竞赛。以并行科技承办的全国并行应用挑战赛(PAC)为例,这是一项基于Intel处理器平台以及融合加速器等多种运行环境而举办的超算大赛。“对于未来的超算人才来说,今年竞赛将是一个在学生时期接触最新平台和技术的难得机会;从行业全局来看,这有利于中国人工智能大模型发展,有利于更早完成国产芯片替代。”陈健博士评价说。(特别提醒:全国并行应用挑战赛报名组队时间从即日起至7月24日。)

▲PAC全国并行应用挑战赛

综合来看,并行科技公司在业务规模、技术能力、行业人才培养等方面均保持较高水平据报道,并行科技在2023年上市之际谈道,公司将提供包括超算中心选型配置、超算中心运营、超算云服务等在内的全链路算力资源运营服务。

结语:发力算力租赁和国产替代,助力国产算力“挑大梁”

无论是下游百模“大炼钢铁”,还是上游抢建智算中心,都显露出行业在日新月异的AI竞赛里“算力焦虑”。在采访过程中,陈健博士妙语连珠、深入浅出地从技术、应用和市场方面洞悉问题本质,给出算力租赁和国产替代等多种路径,展示了并行科技的算力资源整合与调度能力优势,以及其作为一家算力服务商在行业中的实践示范。

从行业发展的宏观层面来看,国产大模型卡位中,但落地的过程任然充满“猜忌”和“内耗”。陈健博士谈道,国产GPU芯片已经可以上大模型战场了,但在执行高端重要任务方面还需要磨练。我们还需创造一个更高性能、更高效率的基础架构和系统,以及相对应的算力服务系统,推动下一代人工智能的发展。并行科技的使命是让计算更简单,在支持国产算力发展的这条路上做出贡献,伴随国产算力发展趋稳,早日进入主战场。