2025年3月27日,由上海市计算机学会指导,DOIT传媒主办,算力豹、百易存储研究院、CXL技术应用俱乐部、上海市计算机学会存储技术专委会、上海交通大学计算机系支持的“2025人工智能基础设施峰会”在上海龙之梦万丽酒店盛大召开。

在峰会智能算力前沿技术论坛上,清程极智技术专家李浩瑞进行了《开源赤兔引擎推动算力生态,赋能多场景的大模型私有化部署及其应用》的主题分享,介绍了清程极智在算力基础软件方面的技术积累,并深入解析了其最新开源的赤兔(Chitu)推理引擎技术优势及其在实际场景中的应用成果。
赤兔推理引擎突破了FP8与英伟达H系列硬件的绑定,在大部分国产显卡、英伟达非Hopper卡设备上即可部署DeepSeek-R1满血版性能,Token输出速度超越国际主流推理引擎,GPU用量在减半的情况下仍能有3.15倍的提速。同时他分享了清程极智在算力服务方面的软件能力,包括底层编译器、并行计算系统及大模型应用等全栈技术方案。
清华基因,孕育硬核科技
清程极智孵化自清华大学计算机系,由翟季冬教授担任首席科学家。依托团队成员在实验室里积攒的在基础设施、算力优化领域的深厚积累,公司构建了全栈技术体系,技术能力覆盖从底层编译器到上层大模型应用的各个环节。中国工程院院士郑纬民曾提出了10个关键基础软件的核心技术,包括并行系统、计算框架、通信库、算子库、AI编译器、编程语言、调度系统、存储系统、内存管理、容错系统等,清程极智在其中过半数已拥有自研产品,基于此形成的解决方案覆盖大模型落地全栈技术要求。
清程极智依托基础软件全栈技术积累,提供智能算力建设全流程解决方案:从国产生态算力适配、大规模预训练、大模型微调、到大模型推理效率提升、云端服务平台MaaS以及RAG服务。实现智能算力能力从无到有、降本增效、个性化定制等。。
在李浩瑞现场展示的案例中,在给某视频生成大模型客户做算力效率提升时,清程极智可将单卡推理速度提升1.3倍,,四卡环境下视频生成时间从190秒缩短至58秒。
赤兔引擎:突破部署瓶颈,促进国产生态建设
李浩瑞重点介绍了清程极智开源的赤兔引擎。在部署DeepSeek–R1满血版时,传统方案面临显存需求高、多卡通信瓶颈以及芯片适配难题。赤兔推理引擎突破了FP8与英伟达H系列硬件的绑定,使大部分国产芯片、英伟达老显卡也能部署DeepSeek-R1满血版。在A100集群测试中,与国外领先的推理引擎相比,赤兔引擎在GPU数量减半的情况下,输出Token速度还能提升3.15倍。
李浩瑞进一步介绍道:赤兔引擎具备多源算力适配、多场景伸缩、运行稳定、兼容能力强等特性,支持多种主流模型和多模态模型,适配国内外芯片及多种接口格式,显著缩短请求耗时,提升并发吞吐效率,实现显存优化。在2024AIPerF–Inference吞吐性能榜单中,清程极智与合作伙伴搭建的推理系统荣获性能排行第一名。
近期,基于赤兔引擎,清程极智推出了大模型本地化部署、私有云部署、推理一体机等产品形式,满足不同客户的多场景需求。清程极智大模型私有化部署方案具备多类型多版本大模型选择、小显存占用、异构芯片适配等优势,并提供开箱即用的AI应用服务及定制化开发服务。
目前赤兔引擎已在GitHub全面开源,新华社评论其”为自主可控AI生态提供新支点”。清程极智正与多家国产芯片厂商进行深化合作,致力于打造完全自主的国产智能算力生态。
结语
当开源生态遇上全栈自研,中国AI产业正迎来属于自己的”赤兔时刻”。清程极智也将持续致力推动智能算力生态建设,为行业提供功能完备、高效率低成本的大模型落地全栈解决方案。
