西云算力CTO梁峰:从GTC大会看智算基础设施未来发展

英伟达GTC大会上的AIGC创新

在3月英伟达举办的GTC大会上,Blackwell架构的出现,将算力发展推向一个新高度,我们可以看出英伟达从单芯片内的堆叠转向芯片外的堆叠,芯片尺寸越做越大,更注重能耗优化。

虽然Blackwell号称是AI核弹式硬件发布,但不容忽视的是,黄仁勋的演讲中还谈到了软件优化,并且更加关注生态和应用场景,还提到很多智能场景和应用,机器人与现实世界的交互场景。

这也代表着,如图像识别、语音处理和自然语言处理等AI应用的发展,对算力资源的需求确实在不断增加,但不是无限升级芯片就可以解决大模型现今面临的问题,还要通过不断优化软件架构和算法,有效提升硬件设备的运算效率和处理速度。软件优化不仅包括改进现有算法,还涉及如何更有效地管理数据流和内存分配。

对此,西云算力CTO梁峰表示,在AI发展的现阶段,更大的模型依然是驱动AI生态的基石,而更大的参数、算力和数据是关键因素。我们需要更大的集群能力,从千卡走向万卡甚至更大,坚定致力于为大模型公司提供最佳集群服务,并在能源、算力和网络方面持续优化,面向应用,构建高效、绿色、安全的算力平台,满足各类应用的需求。

此外与英伟达类似,我们还要关注AI应用生态。西云算力在RAG和Agent方面加大研究投入,提高应用开发在平台上的质量和效率,提供更好的工具链支持。另一方面还关注小型MoE模型的发展,为应用场景的推理提供更具性价比的算力方案。

西云算力正式推出丹摩智算平台

2024年4月,西云算力正式推出了丹摩智算平台,面向应用,打造全系列全场景的智算基础设施。它不仅支持大模型的高效训练,实现分钟级断点续训,而且在并行效率上也进行了深度优化,确保开发者可以在一个高度集成的环境中构建、测试和部署AI模型。

丹摩智算平台通过西云智渲、西云智训和西云智推三大核心组件,为各种专业场景提供强大高效的服务支持提供一站式服务。这些组件协同工作,支持AI项目从原型到生产的全生命周期。

其主要应用场景包括:

AI训练。提供丰富的用于AI训练的计算资源及训练软件,使得用户可以快速构建、训练和部署自己的人工智能模型。平台支持 TensorFlow、PyTorch、Caffe等主流工具和框架,用户可以根据具体需要选择合适的工具来开发AI模型。

AI推理。平台基于高性能算力集群为用户AI推理服务提供强大的算力支持, 为AI推理服务的部署和发布提供便利的工具支持。具有针对AIGC、图像识别、语音识别等多应用场景的解决方案。

高性能计算。专为AI、深度学习推出GPU云容器服务,提供专业、高效、经济的 GPU加速云计算服务。无需复杂配置,快速接入强大的GPU资源,简 化开发流程,即插即用。

图像/视频渲染。针对特效制作、影视动画、建筑效果图等场景的离线算力服务;通过高性能GPU服务器提供的实时渲染服务可用于直播渲染、游戏娱乐、 产品展示等场景。

通过丹摩智算平台的发布,西云算力不仅强化了其在AI领域的技术领先地位,还为各行各业的企业提供强大的算力支持,使他们能够更有效地利用AI技术推动业务发展和创新。

提升MFU,专注绿色节能

丹摩平台的发布我认为有两个点值得关注,一个是前面提到的最大限度降低能耗,另一个就是提升MFU(大模型浮点运算利用率)。

在绿色节能方面。西云算力在宁夏打造的智算中心是宁夏首个采用全自然风冷技术的30KW机柜人工智能数据中心(AIDC),建成于2023年12月,坐标中卫市沙坡头区。

该项目占地70亩,建筑面积近2.8万平方米,包含三栋高规格自然风冷高密度机房,专业为支撑人工智能大模型产业的发展,构建绿色安全的算力基础设施。西云算力还通过优化选址和创新制冷、变配电技术,实现了绿色低碳和PUE、WUE的极致优化,这是西云算力在实践中的绿色节能。

另外就是大模型的训练与推理场景,大模型开源加速了应用端以推理能力为中心的需求。在2024AIGC创新创业新趋势专场技术沙龙上,算力专家黄新平在演讲中称训练阶段是建立模型的基础,我们可以用训练建立整个AI生态,这种从源头开始建立的生态可以确保数据的私密性、模型的定制化和业务的独立性。

推理是使用已训练好的模型进行预测的过程,可以快速上市,快速响应市场需求,但会依赖于预训练模型的提供者。

这让人联想起刘慈欣科幻小说《赡养上帝》中提到的人类文明与上帝文明的差异,“你们只要花上一个世纪的时间,就可以应用我们最基础的知识部分了。”底层差距往往需要更大的时间差去弥补,因此,在AI领域,虽然技术发展迅速,但能力的培养仍需从基础做起。

对于AI训练则要关注MFU的提升。西云算力CTO梁峰在DOIT采访中表示

计算资源购买后,软件优化方面,特别是MFU(大模型浮点运算利用率)指标尤为重要。

MFU代表训练过程中算力的整体利用率。以千张卡组成的集群为例,如果一个月的训练中算力利用率仅为30%,则意味着大部分时间资源处于闲置状态。如果提升至60%,要么可以训练更大的模型,要么可以让训练时间减半,从而提升产品迭代速度并降低单位训练成本。而且MFU对推理阶段的性能和效率也有影响,高效的浮点运算可以加快单次推理的处理速度。

提升MFU的方法多种多样,国内已有优秀团队进行相关研究。首先,算法层面的优化是关键,如改进Transformer等基础算法模型,提升张量并行、数据并行或pipeline并行的效率。

其次,通过算子层面的优化来提升MFU,通过优化底层算子或引入新命令,提高计算效率并契合芯片能力。此外,通信层面的优化同样重要,针对现有算法和训练框架中的大数据量传输问题,可以优化交换设备和网络设备中的路由协议,以应对单体单次大流量的数据传输,避免网络拥堵导致的算力闲置。

第三、第四则聚焦整体运营与容灾。在千卡乃至万卡的大规模集群中,长期训练过程中难免会出现设备单点故障,尤其是复杂的GPU设备。单点故障对集群训练的影响显著,可能导致整个集群训练停止。修复故障无论耗时多久,都会降低算力利用率,造成资源浪费。

因此,我们需要在框架层面和维护层面探索规避或减少单点故障对集群影响的方法。一方面,提升故障自愈能力,提高MFU效率。另一方面,预测故障产生,通过经验和AI预测能力,在预感到可能出现故障时提前规避,避免训练中断导致的效率下降。

这些问题正是制约我们算力利用率达到更高水平的瓶颈,特别是在大规模集群中,算力利用率往往只能达到50%左右。这也要求我们未来要进一步研究提升MFU的方法。

最后

西云算力的智算平台发体现了一种前瞻性,不仅加强了其在技术上的领先地位,更为各行各业的企业开辟了利用AI技术进行创新的快速通道,这些企业得以在西云算力的帮助下,更有效地推动业务的发展和创新。在大模型和AI技术不断进步的今天,这种平台和服务的出现无疑为整个行业的发展注入了新的活力。