近日,以“智驱网络 芯动未来”为主题的2024 DPU&AI Networking创新大会在北京举办。大会表彰了在DPU与AI网络技术创新及实践应用中取得卓越成就的单位与项目,天翼云科技有限公司荣膺创新引擎奖、《紫金DPU算力卸载与网络加速应用》荣获实践先锋奖,技术创新实力以及应用实践成果再获行业认可。AI算网技术论坛上,天翼云科技有限公司资深研发专家樊小平发表演讲,分享了天翼云在高性能智算网络方面的技术创新。
“创新引擎奖”颁奖仪式 “实践先锋奖”颁奖仪式
人工智能时代对智算的需求急剧增长,也对网络提出了前所未有的要求。樊小平表示,建设高性能智算网络面临着诸多挑战。在终端层面,RDMA网卡需接入存储和智算参数面等多个网络平面并面临业务融合加速的问题,RDMA网卡若要发挥极致性能需攻克高性能通信库难题。在网络层面,AI大模型的训练数据、参数规模庞大且训练涉及万卡并行,这不仅对网络的性能、可靠性、安全性、带宽等提出了更高的要求,还需要组建大规模的RDMA网络来支撑。
为了应对以上挑战,天翼云积极探索智算网络领域新技术,构建的高性能智算网络,可扩展至万卡集群,参数面RDMA网络采用3层组网,以实现端网协同、软硬件结合以及业务感知;在RDMA网卡优化方面,天翼云基于紫金DPU底座研发的紫金RDMA网卡,实现了一卡四用,同时支持可编程拥塞控制框架;在拥塞控制方面,天翼云推出CTCC拥塞控制算法,可以免去交换机复杂的水线配置,能够在不同的端侧选择不同的倾向性策略,例如倾向于高吞吐或倾向于低时延等;在存储网络方面,天翼云三栈融合的协议栈SF-STACK,支持动态选择传输层协议,拥有高性能、高可靠优势并屏蔽硬件差异,扩展了可部署的网络类型。此外,天翼云推出高性能集合通信库CTCCL,聚焦多路径负载均衡、故障检测与恢复,可以优化网络路径,保障网络可用性。
目前,天翼云高性能智算网络,通过紫金DPU支持VPC/对象存储(VxLAN)接入、提供并行文件存储(RoCE)接入、实现高性能存储引擎LAVA对接,可减少网络平面、降低网络复杂度。凭借单卡支持多种网络形态接入、单网络承载多种传输流量的优势,天翼云高性能智算网络在助力智算高性能存储方面已取得显著成效,能够帮助企业有效降低成本、提升效率。
随着各行业上云用数不断深入推进,网络与算力的相互协同将进一步促进数字经济蓬勃发展。天翼云将坚持科技创新,探索全新智算网络解决方案,为千行百业的数智发展注入强劲动能。