腾讯星脉网络2.0全新发布,400G网络接口,支持超10万卡大规模组网

腾讯云副总裁王亚晨

随着大模型的火热持续迭代,AI基础设施愈发成为云厂商的核心竞争力之一。

7月1日,腾讯宣布其自研星脉高性能计算网络全面升级,升级后的星脉网络2.0搭载全自研的网络设备与AI算力网卡,支持超10万卡大规模组网,网络通信效率比上一代提升60%,让大模型训练效率提升20%。这意味着,如果原来训练中某个计算结果的同步需要花100秒完成,现在只需要40秒;原来需要花50天训练的模型,只需要花40天。

AI大模型就像是一场F1比赛,腾讯云专门设计了星脉高性能算力网络“赛道”,并自研了TiTa和TCCL网络协议作为“赛事指挥中心与专业车队”,共同让“腾讯云高性能计算集群HCC的GPU服务器”这台马力强大的F1赛车发挥最大的算力性能,助力客户在AI大模型的竞争中遥遥领先。

AIGC的火热推动着AI大模型参数量从亿级到万亿级的飙升。模型参数规模与架构升级对底层网络网络也提出了新的要求。

为支撑AIGC中海量数据的大规模训练,大量服务器通过高速网络组成大规模算力集群,互联互通,共同完成训练任务。

然而,集群规模越大,所产生的通信损耗会越高;同时,AI训练的通信模式,与传统的通信模式差异较大,不同大模型架构也存在着通信模式的差异。部分大模型训练过程中通信占比最大可达50%。同时,分布式计算模式也意味着,单点的故障将导致整个集群不可用,因此在故障的时候需要快速定位与恢复训练,把损失降到最低。

如何在大规模组网前提下,提升通信效率、降低通信占比,让训练稳定高可用,进而提升GPU的利用率和模型训练效率,是AI网络要解决的核心问题。

数据显示,星脉网络2.0可实现大模型训练过程中,网络通信占比(通信时间占总体时间比例)低至6%,远低于10%的业界水平;通信负载率达到90%,与IB网络(Infiniband)持平,相较于标准以太网提升60%。整体能力处于业界顶尖水平。

四大组件全面升级,助力AI训练提速

腾讯自研星脉网络是一套软硬协同的高性能网络体系,包括自研网络设备、通信协议、通信库以及运营系统四大关键组件,每个组件均采用了业界首创的腾讯核心技术。

硬件方面,腾讯星脉网络是业界首个采用全自研网络设备的高性能网络,包括交换机、自研光模块、网卡等。自研交换机从25.6T容量升级到51.2T,同时在业界率先引入400G硅光模块,速率翻倍,让网络延迟降低40%,支持超10万卡大规模组网。

值得注意的是,星脉网络2.0支持搭载腾讯自研的全新算力网卡,这是公共云业内首款为AI训练设计的网卡,网卡采用最新一代 FPGA 芯片,整卡带宽可达400Gbps,具备业界最高的3.2T整机通信带宽。该自研算力网卡运行着新一代腾讯自研通信协议TiTa,并搭载了腾讯独有的主动拥塞控制算法。

相比起上一代,TiTa协议2.0从部署在交换机转移到了端侧的网卡上,从原来的被动拥塞算法升级到了更为智能的主动拥塞控制算法,可主动调整数据包发送速率,从而避免网络拥堵;并通过拥堵智能调度,实现网络拥塞快速自愈。这让混合专家(MoE)模型训练下网络通信性能相比1.0提升30%,带来训练效率10%的提升。

专为星脉网络设计的高性能集合通信库TCCL,也进行了升级。通过创新的NVLINK+NET异构并行通信、Auto-Tune Network Expert自适应算法等通信库的升级,在MoE模型训练下,给星脉网络带来了30%的通信效率提升,让模型训练效率提升10%。

TCCL 对外的接口跟原生通信库接口完全一致的,主流AI大模型客户不需要额外适配,只需要替换通信库就可以发挥星脉的能力。

通信协议TiTa与通信库TCCL的升级带来的效果叠加,让星脉网络的通信效率提升60%,MoE大模型训练效率提升20%。

网络的故障或任何单点的故障,将导致整个集群不可用,让模型训练暂停。因此,网络的高可用、稳定性也极为重要。为确保星脉网络的高可用,腾讯云自研了端到端的全栈网络运营系统,这也是星脉网络第四大关键组件。

运营系统2.0新增腾讯独家技术灵境仿真平台,从原来仅能定位网络问题,到可定位GPU节点问题,实现万卡级训练故障卡顿、慢节点分钟级定位。这对星脉网络进行了360度无死角的立体监控,可以更快发现与定位网络问题,让整体故障的排查时间再次大幅缩短,故障时尽快恢复续训。

打造最适合大模型的云

目前,腾讯云已经面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、AIGC存储解决方案、向量数据库以及行业大模型服务MaaS、天御AIGC内容安全解决方案等大模型全链路云服务。超过80%的头部大模型企业使用了腾讯云服务。

大模型训练集群在HCC将高性能云服务器作为节点,满配最新代次的GPU,节点之间通过自研星脉网络互联,提供高性能、高带宽和低延迟的一体化高性能计算产品。

腾讯云AIGC云存储解决方案是国内首个实现存储引擎全面自研的云存储解决方案,可将大模型的数据清洗和训练效率均提升一倍,需要的时间缩短一半。

腾讯云向量数据库Tencent Cloud VectorDB每日支撑超过3700亿次向量检索请求,可支持千亿级向量规模存储,百万级 QPS 及毫秒级查询延迟,适用于大模型的训练推理、RAG场景、AI应用以及搜索推荐服务,实现企业数据接入AI的效率比传统方案提升10倍。

腾讯云打造了天御AIGC全链路的内容安全解决方案,提供包含数据服务、安全专家、机器审核、版权保护、客户体验管理五大服务体系,护航企业从模型训练到事后运营全过程的内容安全建设。

同时,在自身AI基础设施支撑下,腾讯自研的通用大模型腾讯混元大模型也在持续迭代。

借助基于星脉网络的大模型训练集群HCC、Angel机器学习平台等自研底层技术,腾讯搭建起万卡AI训练集群,可以用更少的资源训练更大的模型,训练速度是主流框架的2.6倍;推理成本相比业界主流框架下降70%,并且支持国产主流硬件的适配。

腾讯混元已扩展至万亿级参数规模,采用混合专家模型(MoE)结构,在通用基础能力和专业应用能力方面处于国内主流大模型领先地位。无论是企业客户还是个人开发者,都可以通过腾讯云上API直接调用腾讯混元,实现更便捷的智能化升级。腾讯还联合生态伙伴,将大模型技术与20多个行业结合,提供超50个行业大模型解决方案。

大模型时代的来临,将开创下一代云服务,腾讯云致力于打造“最适合大模型的云”,也将持续升级底层AI基础设施,助力企业把握AI时代。