阿里云飞天企业版“智算升级”,为政企打造AI时代的云

9月19日,在2024云栖大会上,阿里云宣布飞天企业版已实现“智算升级”,将智算能力深度融入专有云平台,实现通用算力、超算、智算的一网调度,满足政企客户“云+AI”协同发展需求,为AI大规模在政企市场落地提供技术支持。

飞天企业版是阿里云基于阿里云飞天云计算操作系统,为政企客户专属构建的资源和云管完全独立的企业级云平台。飞天企业版与阿里云公共云同根同源,采用同一套技术架构,为客户提供一致体验。自2014年起,飞天企业版已服务超1000家大型政企客户,深耕金融、政务、能源、电力、交通等多个行业。

随着大模型的爆发,政企市场算力需求迎来新变化。一方面,不同架构GPU芯片统一管理调度已成大势所趋,算力共池、统一调度成为普遍面临的挑战;另一方面在并行计算性能上,现有GPU服务器和集群的模型计算实际效率与理论计算效率相比,仍有较大提升空间。

为此,阿里云飞天企业版在异构算力池化、推理效率等能力上实现智算升级。

在异构算力池化方面,飞天企业版的GPU虚拟化和容器调度算力切分粒度达到1%,资源利用率提升100%;基于训推资源调度一体化平台,通过训推任务和资源调度策略结合,飞天企业版将算力资源碎片减少30%。

在推理场景性能方面,通过GPU推理调度算法优化,飞天企业版在单机多卡并行式训练中可自动选择最优通信链路,通信带宽最大可提升100%。基于拓扑感知进行资源调度,模型吞吐量提升23%;通过对GPU深度调优及显存、算子、编译技术等针对性优化,飞天企业版GPU性能较社区版提升10%。

在端到端系统稳定性方面,飞天企业版提供从训练任务到底层基础设施的一体化监控和分析诊断能力,针对故障节点和受影响的作业路径可实现分钟级定位和诊断,整体故障监控覆盖率达到80%。

此外,智能升级后的飞天企业版增加AI Studio平台和运维大模型板块。AI Studio在兼容国产底层硬件的基础上,可实现模型训练、微调、测评等,内置丰富的行业应用插件,用户可快捷、高效地完成大模型的构建和发布;运维大模型以通义千问为基模,结合超百万运维专业问题、方案等数据训练而成,可将日常运维效率提升50%。

阿里云智能集团副总裁、专有云总经理刘国华表示:“飞天企业版十年演进,离不开客户的信任和支持。面向AI时代,我们将持续保持对政企市场的专注和承诺,为政企打造AI时代最开放的云。”