清程极智李浩瑞：开源赤兔推理引擎是清程极智助力国内AI生态建设的重要一步-DOIT-数据产业媒体与服务平台

2025年3月27日，由上海市计算机学会指导，DOIT传媒主办，算力豹、百易存储研究院、CXL技术应用俱乐部、上海市计算机学会存储技术专委会、上海交通大学计算机系支持的“2025人工智能基础设施峰会”在上海龙之梦万丽酒店盛大召开。

在峰会智能算力前沿技术论坛上，清程极智技术专家李浩瑞进行了《开源赤兔引擎推动算力生态，赋能多场景的大模型私有化部署及其应用》的主题分享，介绍了清程极智在算力基础软件方面的技术积累，并深入解析了其最新开源的赤兔（Chitu）推理引擎技术优势及其在实际场景中的应用成果。

赤兔推理引擎突破了FP8与英伟达H系列硬件的绑定，在大部分国产显卡、英伟达非Hopper卡设备上即可部署DeepSeek-R1满血版性能，Token输出速度超越国际主流推理引擎，GPU用量在减半的情况下仍能有3.15倍的提速。同时他分享了清程极智在算力服务方面的软件能力，包括底层编译器、并行计算系统及大模型应用等全栈技术方案。

清华基因，孕育硬核科技

清程极智孵化自清华大学计算机系，由翟季冬教授担任首席科学家。依托团队成员在实验室里积攒的在基础设施、算力优化领域的深厚积累，公司构建了全栈技术体系，技术能力覆盖从底层编译器到上层大模型应用的各个环节。中国工程院院士郑纬民曾提出了10个关键基础软件的核心技术，包括并行系统、计算框架、通信库、算子库、AI编译器、编程语言、调度系统、存储系统、内存管理、容错系统等，清程极智在其中过半数已拥有自研产品，基于此形成的解决方案覆盖大模型落地全栈技术要求。

清程极智依托基础软件全栈技术积累，提供智能算力建设全流程解决方案：从国产生态算力适配、大规模预训练、大模型微调、到大模型推理效率提升、云端服务平台MaaS以及RAG服务。实现智能算力能力从无到有、降本增效、个性化定制等。。

在李浩瑞现场展示的案例中，在给某视频生成大模型客户做算力效率提升时，清程极智可将单卡推理速度提升1.3倍，，四卡环境下视频生成时间从190秒缩短至58秒。

赤兔引擎：突破部署瓶颈，促进国产生态建设

李浩瑞重点介绍了清程极智开源的赤兔引擎。在部署DeepSeek–R1满血版时，传统方案面临显存需求高、多卡通信瓶颈以及芯片适配难题。赤兔推理引擎突破了FP8与英伟达H系列硬件的绑定，使大部分国产芯片、英伟达老显卡也能部署DeepSeek-R1满血版。在A100集群测试中，与国外领先的推理引擎相比，赤兔引擎在GPU数量减半的情况下，输出Token速度还能提升3.15倍。

李浩瑞进一步介绍道：赤兔引擎具备多源算力适配、多场景伸缩、运行稳定、兼容能力强等特性，支持多种主流模型和多模态模型，适配国内外芯片及多种接口格式，显著缩短请求耗时，提升并发吞吐效率，实现显存优化。在2024AIPerF–Inference吞吐性能榜单中，清程极智与合作伙伴搭建的推理系统荣获性能排行第一名。

近期，基于赤兔引擎，清程极智推出了大模型本地化部署、私有云部署、推理一体机等产品形式，满足不同客户的多场景需求。清程极智大模型私有化部署方案具备多类型多版本大模型选择、小显存占用、异构芯片适配等优势，并提供开箱即用的AI应用服务及定制化开发服务。

目前赤兔引擎已在GitHub全面开源，新华社评论其”为自主可控AI生态提供新支点”。清程极智正与多家国产芯片厂商进行深化合作，致力于打造完全自主的国产智能算力生态。

结语

当开源生态遇上全栈自研，中国AI产业正迎来属于自己的”赤兔时刻”。清程极智也将持续致力推动智能算力生态建设，为行业提供功能完备、高效率低成本的大模型落地全栈解决方案。

清程极智李浩瑞：开源赤兔推理引擎是清程极智助力国内AI生态建设的重要一步

nina

相关推荐

近期文章

热门标签