3月27日,在2025人工智能基础设施峰会上,清程极智技术专家李浩瑞深入解析了开源赤兔(Chitu)引擎的技术优势及其在实际场景中的应用成果。赤兔引擎通过自研编译器和优化推理系统,突破英伟达硬件限制,在国产显卡、非Hopper卡设备上即可实现DeepSeek-R1满血版性能,Token输出速度超越国际,GPU用量减半仍保持超高吞吐。同时他分享了清程极智在算力服务方面的软件能力,包括底层编译器、并行计算系统及大模型应用等全栈技术方案。

清华基因,孕育硬核科技
清程极智孵化自清华大学计算机系,由翟季东教授于 2023 年发起创办。依托 PACMAN 实验室在基础设施、算力优化领域的深厚积累,公司构建了全栈技术体系,业务覆盖从底层编译器到上层大模型应用的各个环节。李浩瑞提到,中国工程院院士郑纬民提出的”十大基础软件”理论,透露公司已在过半领域实现自研突破。

当下,国内 AI 行业面临算力难题:英伟达高端芯片获取受限且价格高昂,国产芯片软件生态尚不完善,导致算力投入产出失衡。清程极智针对这一现状,打造出自研软件生态,覆盖并行计算系统、AI 算子等十大基础软件,为客户提供高性能算力解决方案,实现降本增效。
赤兔引擎:突破部署瓶颈,引领性能革新
李浩瑞重点介绍了清程极智开源的赤兔引擎。在部署 DeepSeek – R1 满血版时,传统方案面临显存需求高、多卡通信瓶颈以及芯片适配难题。赤兔引擎打破硬件绑定,使国产芯片、英伟达老显卡也能达到满血版运行效果。与国外领先推理引擎 vLLM 相比,赤兔引擎在 GPU 数量减半的情况下,输出 Token 速度提升 3.15 倍。
赤兔引擎具备多源算力适配、多场景伸缩、运行稳定、兼容能力强等特性,支持多种主流模型和多模态模型,适配国内外芯片及多种接口格式,显著缩短请求耗时,提升并发吞吐效率,实现显存优化。在 2024 AIPerF – Inference 吞吐性能榜单中,清程极智与合作伙伴搭建的推理系统斩获性能排行第一名。
同时,基于赤兔引擎,清程极智推出本地化部署、私有云部署、推理一体机等产品形式,满足不同客户需求。私有化部署方案具备多版本部署、小显存占用、异构芯片适配等优势,并提供开箱即用的 AI 应用服务及定制化开发服务。

全栈解决方案:定制化服务,释放算力价值
清程极智依托全栈技术积累,提供智能算力建设全流程解决方案:从国产生态算力适配、大规模系统训练框架 “八卦炉”,到赤兔推理部署引擎、大模型构建技术、云端服务平台 MaaS API 以及 RAG 服务。该方案具备从无到有、降本增效、个性化定制、变废为宝等特点。
云端 API 服务 MaaS API 预制多个开源大模型,凭借自研优化技术,实现快速 Token 输出和充足算力供应。此外,清程极智还提供贴身服务优化功能,通过系统诊断分析,为客户量身定制优化方案。
在视频生成客户案例中,清程极智将单卡推理速度优化 1.3 倍,开发多卡并行推理软件,使四卡环境下视频生成时间从 190 秒缩短至 58 秒。为国产芯片厂商定制方案后,在客户私有 130B 大模型上实现 7 倍性能提升。
助力中国 AI 生态建设
目前赤兔引擎已在GitHub全面开源,新华社评论其”为自主可控AI生态提供新支点”。清程极智正与燧原、昇腾等国产芯片厂商深化合作,致力于打造完全自主的智能算力生态。正如李浩瑞所言:”我们不仅要解决卡脖子问题,更要建立中国人自己的技术标准体系。”
当开源生态遇上全栈自研,中国AI产业正迎来属于自己的”赤兔时刻”。清程极智也将持续致力推动智能算力生态建设,为行业提供功能完备、高效低成本的大模型落地全栈解决方案。
