什么？Kimi开源底层推理框架！华为数据存储宣布加入，以存换算的创新理念大幅度减少算力开销-DOIT-数据产业媒体与服务平台

引言

【算力豹导读】什么？Kimi的底层推理架构刚刚震撼发布了一则令人瞩目的消息：它正式迈出了开源的步伐！

正是那个为Kimi线上业务输送了超过80%流量的坚实基石，如今已向公众敞开了怀抱。

就在今天，月之暗面Kimi携手清华大学等一众顶尖合作伙伴，共同揭开了名为Mooncake的大模型推理架构的神秘面纱，将其源代码无私地奉献给了全世界。

根据官方介绍，本次开源将采用分阶段的方式：

逐步开源高性能KVCache多级缓存Mooncake Store的实现，同时针对各类推理引擎和底层存储/传输资源进行兼容。

其中传输引擎Transfer Engine现在已经在GitHub全球开源。

Mooncake一经开源，已在GitHub狂揽1.2k star。

构建一个以KVCache为核心的大型模型推理架构

清华大学的MADSys实验室与月之暗面科技有限公司携手合作，共同推出了一项名为Mooncake的开源项目。该项目的核心目标是构建一个以KVCache（键值缓存）为核心的大型模型推理架构，通过创新的技术手段，显著提升模型推理的效率和性能。

在2024年6月，双方合作发布了基于Kimi底层的Mooncake推理系统设计。这一设计采用了PD分离和以存换算架构，显著提升了推理吞吐量，引起了业界的广泛关注。Mooncake项目源自于学术论文，其核心是超大规模的KVCache缓存池，通过以存换算的创新方法，有效降低了计算资源的消耗，同时显著提高了推理吞吐量。

该项目采用了分阶段的开源策略，逐步公开高性能KVCache多级缓存Mooncake Store的实现，并致力于与各种推理引擎及底层存储/传输资源的兼容性。

大模型推理优化技术-KV Cache

KV Cache（键-值缓存）是一种在大模型推理中广泛应用的优化技术，其核心思想是利用缓存key和value来避免重复计算，从而提高推理效率。代价是显存占用会增加。

具体而言，Mooncake采用以KVCache为中心的解耦架构，将预填充集群与解码集群分离，并充分利用GPU集群中未充分利用的CPU、DRAM和SSD资源，实现KVCache的解耦缓存。

其核心在于以KVCache为中心的调度程序：

在最大化整体有效吞吐量和满足与延迟相关的服务级别目标 (SLO) 要求之间取得平衡

当面对流量高峰期时，Mooncake通过早期拒绝策略和预测未来负载的方法，来处理超载问题。

早期拒绝策略（Early Rejection Policy）

简单说，其核心思想是在请求实际开始处理之前，根据当前系统的负载情况预测是否有足够的资源来处理新的请求。

如果预测结果表明系统资源不足以保证请求的及时处理，系统就会在请求到达之前予以拒绝，从而避免了无效的资源占用和不必要的延迟。

预测未来负载（Predicting Future Load）

在Mooncake中，系统需要能够预测在未来一段时间内的负载情况，以便做出更准确的接受或拒绝请求的决策。

如何实现呢？？？

通常来说，这种预测会基于当前的请求模式、系统的资源使用情况以及历史数据等信息。

再通过对信息的进一步分析建模，Mooncake就能够估计接下来的请求处理需求，并据此调整其调度策略。

论文实验结果显示，与基线方法相比，Mooncake在某些模拟场景中可以实现高达525%的吞吐量提升，同时遵守SLO（与延迟相关的服务级别目标)。

在实际工作负载下，Mooncake使Kimi能够处理75%以上的请求。

华为数据存储参与共建

Mooncake开源项目从论文延伸，以超大规模KV-Cache缓存池为中心，通过以存换算的创新理念大幅度减少算力开销，显著提升了推理吞吐量。本次开源将采用分阶段的方式，依次开源其中的关键组件并集成对于各类不同上层训推框架的支持。

作为AI数据基础设施服务商，华为数据存储在此开源架构中对其中推理框架、Transfer Engine和高性能内存型存储进行扩展与增强。快速构建起 “上层生态+中间算法插件+下层AI存储”的框架方案，形成大模型推理架构最佳实践，基于开源的生态和插件，众多的存储厂商都可以遵循相同的标准接入，通过高性能存储的大范围全局共享与持久化KV-Cache能力，实现高性价比的以存换算推理加速，帮助以KV-Cache为中心的大模型推理架构具备长期记忆能力。

华为数据存储在此次开源项目中扮演了重要角色。

它在此开源架构中对推理框架、Transfer Engine和高性能内存型存储进行了扩展与增强。具体来说，华为数据存储面向vLLM、MindIE等主流推理引擎提供了接口适配，并提供了以查代算加速插件Memory X，实现了高性能的长序列推理加速。此外，华为数据存储还提供了高性能检索服务，通过高维索引与知识/记忆协同，提供了高效的KV索引构建以及大库容分布式检索能力。

在高性能分级内存扩展方面，华为数据存储的Unified Cache Engine提供了针对KVCache的高效管理与加载能力，支持多硬件形态统一内存服务。这包括面向KVCache的多级缓存管理，以及面向GPU/NPU的数据直通加速和软硬协同增强能力。

更重要的是，华为数据存储的高性能内存型存储（OceanStor A系列存储）基于数控分离全交换架构的原生AI存储，提供了TB级性能、PB级容量、大规模共享的全局内存扩展池。这实现了高效的KVStore布局、管理与加载策略，提升了KVCache加载效率，为大模型提供了终身记忆和无限上下文能力。

参与开源的首批阵容

此外参与开源的首批阵容还包括AISoft、阿里云、面壁智能、趋境科技等。

可以说，云计算、存储、AI模型玩家等产学研力量都聚齐了。

目前Mooncake技术框架已正式开源上线，官方还表示：

欢迎更多企业和研究机构加入Mooncake项目共建，共同探索更加高效和先进的模型推理系统架构创新，让基于大模型技术的AI助手等产品，持续惠及更广泛人群。

结语

Kimi开源底层推理框架Mooncake，并携手华为数据存储等业界代表厂商和科研团队共同推动其发展，是大模型时代的一个重要里程碑。这一项目的成功实施，将为处理长文本和高并发需求提供有效的解决方案，推动整个行业向更高效的推理平台方向发展。

什么？Kimi开源底层推理框架！华为数据存储宣布加入，以存换算的创新理念大幅度减少算力开销

lixiangjing

相关推荐

近期文章

热门标签