腾讯云王竹兵:普惠AI浪潮下腾讯云智算解决方案

如何通过技术创新,让算力不再是门槛,而是推动千行百业拥抱智能化的“水电煤”? 腾讯云的答案,是构建一套覆盖全场景、全链条的智算解决方案。在2025人工智能基础设施峰会现场,腾讯云异构计算首席架构师王竹兵分享了腾讯云在智算方面的深度思考与实践,受到听众的广泛关注。

破解大模型时代的算力挑战

大模型火爆的同时,对于计算、存储、网络的需求也在逐渐增加。从三维度看大模型的三大特征:

(1)数据量大。海量优质数据才是大模型能够训练的基石,数据量巨大的情况下对于存储的需求也是急剧增加的状态。

(2)参数量大。大家一直在说大模型,什么是大模型?大模型其实就是参数量大,参数量大带来什么样的好处?模型泛化和表达能力越强,对于GPU算力的要求也会更大。

(3)通信量大。参数量越来越大的时候,对于模型训练、模型推理其实在单台机器里没有办法完成,需要多台机器完成,多机多卡的通信也成为了大模型时代的主流,对于网络需求也会更加大一些。

面对这些挑战,单纯堆砌硬件已非正解。腾讯云以“全局最优”思维重构基础设施:从计算、存储、网络的单点性能突破,到软硬协同的全栈优化,再到跨集群的资源调度与故障自愈,让算力效率与稳定性实现指数级提升。

深耕智算底座 能千行百业

正是由于计算、存储、网络带来的需求,腾讯云一直在高性能AI基础设施方面深耕,在基础平台研发和生态建设上也投入了很多精力。AI底座发展经过了三个阶段:

1.探索期。在2019年左右,对于像英伟达非常老旧的V100机器已经搭配了RDMA网络,同时能助力科学计算、仿真等场景。在2021年A100 GPU搭配了RDMA网络,获得了信通院的高度认可,在探索期的时候网络带宽也只有100G的RDMA网络。

2.技术迭代期。发展跟自动驾驶、大模型发展是强相关的状态,这个时间点技术不断在进行迭代演进,像在硬件上腾讯引入了自研的星星海AI训练服务器,以及基于白盒交换机所做的星脉网络交换机。在网络上,RDMA网络从800G不断迭代到最先进的3.2T。腾讯云的集群也有搭配华为910高性能智算集群。

3.规模化应用期。在这个阶段提供了基于计算、存储、网络全方面的智能高性能智算底座,助力大模型发展。

王竹兵表示,腾讯云智算底座有三大特征:云原生、同源同构、场景驱动。

对于整体的规划,腾讯云的愿景和使命包括:

一是,希望依托于腾讯自研的软硬件优势,性能在业界做到领先。

二是,多芯兼容,腾讯云所使用的交换机、GPU卡,有用英伟达和华为910的GPU卡,也有腾讯自研的“紫霄”GPU,做到多芯兼容使用。

三是,在使用上更加灵活,因为腾讯云是做公有云,很多企业数据聚焦在公有云上,但对于这块有很多其他客户数据没办法上到公有云上使用,就可以提供分布式云、专有云等场景,能对AI底座做灵活的部署。

腾讯云一直在持续打造AI Infra的品牌影响力,引领算力发展。Gartner评估腾讯云在未来潜力上位列亚太厂商第一,同时在很多技术委员会上也获得了奖项。

前面介绍了对于大模型发展,而对于计算、存储、网络的需求,具体而言:

第一,计算层面。对于腾讯云来说推出了高性能计算集群HCC,训练稳定性在业界比较领先,有三个优势:

1.启动时间短,很多客户更多聚焦在自己的模型层面,不需要做基础设施建设,这样用到腾讯高性能计算集群的时候能够保证在设备到位的时候,训练时间从30天缩短到1天。

2.故障率低,有自研的星星海服务器,不仅软硬件和硬件上都有做到相应的优化,千卡单日故障率能跌到0.16。

3.故障恢复快,为什么把故障作为一个点来讲?因为在大模型训练过程中,每一次的训练过程花费的精力、金钱投入是非常巨大的,希望以最大的速度发现故障,并且能够快速剔除,做到集群一致性,快速发现故障的机器。同时通过热备机直接把对应的故障机器替换掉,整体故障恢复的时间就会很短。

第二,网络。

腾讯自研的星脉网络依托自研的硬件白盒交换机,网络带宽做到了3.2T RDMA网络,在业界比较领先。

结合通信,像英伟达一直说结合通信最好的是用IB的网络,腾讯云是用的Rocky的网络,在性能上能和IB网络持平,但成本能大大降低。

全局监控,星脉网络可以理解为类似每个机器、交换机上都有对应的Agent,能从全局的角度感知网络拓扑结构的变化,监控集群,不仅在运营上更加高效,也在运维上更加高效。

第三,存储。

腾讯云有自研高性能的计算存储引擎Histor,对外能提供高性能的存储解决方案,尤其在大模型训练的时候,训练过程中Checkpoint的写入时间大大降低,数据的读取速率大大提升,打造更适合大模型的存储方式。

第四,数据平台。

腾讯云所有数据都存储在对象存储的数据湖里,但有两个加速方案:一是GooseFS是基于本地盘加速缓存的方案,能加速数据的读取,二是MetaInsight做智能检索,帮助腾讯云提升整体数据的管理效率,释放数据价值。

前面介绍的都是在基础设施方面的投入,在基础之外软件层面也做了很多工作。比如说TACO加速套件,是对于训练和推理做加速的引擎,客户在使用的时候只需要做plug in的方式插入,简单的配置就能使用了,能提升训练、推理的过程。

qGPU是稍微传统一些的,在GPU层面能做到更细粒度的切分,不管是算力或显存上的切分,能提升GPU的利用率。Tione是部署的平台,帮助客户很简单快捷地部署模型,帮助他们做对应的调度。

前面所有的介绍,不管是基于基础设施还是软件层面的,不仅仅在腾讯云公有云上做,在分布式云、专有云、私有云场景下都可以部署,传统行业数据没有办法搬迁上云,通过分布式云的方式把公有云的能力延伸到客户机房里,保证客户能够使用公有云能力的前提下,同时数据能够依然放在他们自己的机房里,让他们在使用AI更加简便。

此外,结合DeepSeek,腾讯云推出了推理服务,即高性能应用服务,以非常低的门槛帮助客户做到一站式模型快速部署,能帮助很多开发者、中小企业快速部署模型。

在普惠AI的趋势下,腾讯云凭借技术优势以一系列智算解决方案赋能千行百业,期待看到腾讯云在AI基础设施领域更多的创新成果。