DeepSeek开源周首日震撼发布:FlashMLA突破H800算力极限,算力成本再创新低

导读

就在今天,中国AI领军企业DeepSeek在“开源周”首日祭出“王炸”——FlashMLA代码库正式开源。这一针对英伟达Hopper架构GPU优化的高效多头潜在注意力(MLA)解码内核,上线GitHub仅1小时即狂揽1700颗Star,创下AI工具类开源项目热度新纪录。其突破性的性能指标与“即插即用”的工程友好性,被视为大模型时代算力革命的里程碑式突破。

文字编辑| 宋雨涵

1

性能与成本的双重革新

H800 GPU算力极限再破顶

据DeepSeek官方披露,FlashMLA专为Hopper架构GPU(如H800 SXM5)设计,在CUDA 12.6环境下实现两大核心指标突破:

内存带宽峰值3000GB/s

(内存限制场景)”

通过分页KV缓存(块大小64)与BF16精度支持,显存占用降低至传统方案的1/10,长序列数据处理效率提升4倍以上;

计算性能580 TFLOPS

(计算约束场景)

针对可变长度序列的动态负载优化,结合张量核指令级调优,实现近乎100%的硬件利用率,推理速度较同类方案提升2.3倍。

“这相当于在H800上‘解锁’了隐藏的算力层。”一位参与内测的开发者表示,FlashMLA通过将KV缓存压缩至低维空间,使单卡可处理的上下文长度扩展至百万Token级,且在生产环境中已稳定支持多模态大模型实时推理。

网友们纷纷点赞:向工程团队致以崇高的敬意,从Hopper的张量核中挤出了每一个FLOP。这就是我们将LLM服务推向新前沿的方式!

技术架构:从实验室到生产的“零损耗”跨越

FlashMLA通过分页KV缓存(块大小64)和BF16精度支持,显著降低显存占用。结合DeepSeek独创的MLA架构(多头潜在注意力),其通过低秩压缩技术将键值(KV)缓存量减少93.3%,使长序列处理的显存需求降至传统Transformer架构的5%-13%,推理成本仅为同类模型的1/7至1/70。

FlashMLA的核心创新在于其三层优化体系:

硬件层

深度适配Hopper架构的TMA(Tensor Memory Accelerator)与异步拷贝技术,消除内存带宽瓶颈;

算法层

动态调整计算粒度,根据序列长度自动选择最优计算路径,避免传统方案因填充(Padding)导致的算力浪费;

工程层

首创“分块-压缩-流水线”三位一体机制,支持毫秒级热更新模型参数,满足在线服务的严苛SLA要求。

尤其值得关注的是其分页KV缓存设计:通过将键值对拆分为64个Token的连续内存块,配合智能预取策略,显存碎片率降低92%,这在处理超长法律文档、基因序列分析等场景中展现出显著优势。

2

打造开源生态

开发者社区掀起“效率革命”

DeepSeek

DeepSeek的基本架构:MLA

MLA机制概述

MLA是一种改进的注意力机制,旨在提升Transformer模型的推理效率和内存利用率。其核心思想是通过低秩联合压缩技术,将多头注意力中的键(Key)和值(Value)矩阵投影到低维潜在空间,从而显著减少键值缓存(KV Cache)的存储需求。这种方法不仅降低了内存占用,还提高了推理速度,同时保持了模型的性能。

DeepSeek系列模型的成果与影响

在V2版本中,DeepSeek系列模型通过采用MLA机制,成功将显存占用降低至传统MHA架构的5%至13%,实现了成本的大幅削减。同时,其推理成本也仅为Llama 370B的七分之一和GPT-4 Turbo的七十分之一。这些显著的成果使得DeepSeek系列模型在自然语言处理领域备受关注。

到了V3版本,DeepSeek系列模型在降本提速方面取得了更为显著的成果。这一版本的模型不仅进一步降低了显存占用和推理成本,还提升了模型的性能和稳定性。这些优势使得DeepSeek在全球范围内备受瞩目,成为自然语言处理领域的一颗新星。

此外,DeepSeek系列模型还积极拥抱开源社区,推动了AI技术的普及和发展。例如,DeepSeek-R1在HuggingFace平台上已收获超过10000个赞,从近150万个模型中脱颖而出,成为该平台最受欢迎的大模型之一。这一成就不仅证明了DeepSeek系列模型的优秀性能和应用价值,也为开源社区的发展注入了新的活力。

开源力量的驱动

开源公告发布后,全球开发者迅速展开实测。GitHub Issue区涌现大量验证数据:

在32K上下文长度的文本生成任务中,FlashMLA的端到端延迟较vLLM降低58%;

多轮对话场景下,显存占用仅为HuggingFace Transformers原生实现的7.2%;

结合DeepSeek自研的MoE(混合专家)路由算法,千亿参数模型的单批次推理成本下降至0.003美元/请求。

写在最后

业内人士认为,FlashMLA的发布标志着AI算力优化进入新阶段。其开源特性或将加速行业技术迭代,助力中小企业低成本部署大模型。DeepSeek透露,开源周后续还将公开更多工具与模型,持续推动AI生态发展。

此次技术突破不仅巩固了DeepSeek在全球AI竞赛中的领先地位,也为算力密集型应用的普及铺平道路。正如网友所言:“这是将LLM服务推向新前沿的关键一步。”