DeepSeek公布三大优化技术,线上服务利润率高达545%!

真的没想到,DeepSeek开源周连续五天之后,居然在周六还加更了一期。

中国科技公司的勤劳,你不服不行!Orz

而且,这期的内容更重磅,不仅提到了优化官方在线服务的三大关键技术点,还提到在线服务收益率高达545%的理论值。

这充分说明,出色的优化可以带来可观的收益。由于DeepSeek可免费商用部署,那些提供DeepSeek付费API服务的云厂商有的忙了。

优化,跟上!

价格,卷起!

官方推文中提到,DeepSeek-V3和R1在线推理系统的优化重点有两个,就是提高吞吐量和降低延迟。

其中,吞吐量就是每秒能输入和输出的Token(也就是文字)数量,越多越好。延迟就是输入后得到响应的等待时间,越短越好。

第一个:大规模的跨节点专家并行方案——EP

DeepSeek是MoE模型,MoE(Mixture of Experts,专家混合)的核心思想就是把模型拆分成多个“专家”(Experts),每个专家都是一个独立的神经网络模块。

所以,它的优化主要靠跨节点的专家并行(Expert Parallelism, 简称EP)方案来实现。EP非常关键,它能让多个GPU高效协作,提高效率和性能。

DeepSeek-V3和R1有256个专家模型,EP方案让不同的GPU只处理其中的8个,于是就减少了单个GPU的内存访问需求,降低了延迟。

同时,DeepSeek通过EP来支持更大的Batch Size(一次批量处理的数据),让每个专家模型能处理更多数据,从而提高GPU的矩阵计算效率,提高吞吐。

推理通常分为两个阶段,包括预填充阶段和解码阶段。预填充阶段负责一次性处理所有输入(类似于编码阶段),解码阶段负责根据输入生成输出(也就是生成阶段)。所以,这两个阶段采用的并行方案也不太一样。

第二个,用交替执行的策略让计算和通讯的执行时间重叠

大规模并行系统比一体机负载,因为大规模EP需要在多个GPU之间传输数据,这会带来很大的通信开销,如果处理不好,就会导致计算等待数据通信,影响整体效率。

为了解决这个问题,DeepSeek使用了一种双批次重叠(Dual-Batch Overlap) 策略,让计算和通信尽可能同时进行,减少等待时间,提高吞吐量。

预填充阶段的双批次重叠(Dual-Batch Overlap) 策略

大致原理上,DeepSeek把一个批次(batch)拆成两个小批次,然后交替执行。比如,当第一个小批次在计算时,第二个小批次就可以进行通信。当第二个小批次开始计算时,第一个小批次就可以进行通信。

解码阶段的双批次重叠(Dual-Batch Overlap) 策略

预填充和解码阶段略有不同,但原理相似。这样一来,通信的时间就被“隐藏”在计算过程中了,而不是让计算等着通信完成。效率和延迟情况得到优化!

第三个,在三个层面上做了负载均衡

在DeepSeek-V3/R1这种大规模并行的推理系统中,如果某个GPU计算或通信负担过重,其他GPU划水,就会造成性能瓶颈,导致整个系统变慢,无法充分利用资源。

为此,DeepSeek试试了三个负载均衡策略:

预填充阶段的负载均衡:由于不同请求的工作量不同,会导致某些GPU计算注意力(Attention)的负担过重,有的GPU可能在划水。而DeepSeek让每个GPU处理输入的Token数量尽量相当,均衡了各GPU的计算量,从而让每个GPU都高效运作。

解码阶段的负载均衡也会因为请求要处理的工作量不同,导致负载不均衡,特别是在 KVCache的使用上。通过让KVCache的使用在GPU之间均衡分配,避免某些GPU计算过载,某些空闲,而导致等待,影响效率。

MoE的并行负载均衡:MoE模型中,不同的专家(experts)计算任务不同,某些“热门”专家可能被调用得更多,导致某些GPU计算压力过大。DeepSeek通过让所有GPU处理的专家计算任务尽量均衡,以此来优化专家分配策略,提高整体计算效率。

最终,通过合理的负载均衡,让所有GPU计算时间尽可能相近,减少等候时间,以提高整个系统的效率和性能。

DeepSeek官方推理服务的运营细节,收益率爆表!

介绍完这些技术细节后,DeepSeek还介绍了在线推理服务的很多个细节,每个H800 GPU节点每秒支持73.7K和14.8k的输入输出Token,说明吞吐性能很高。

并且,虽然幻方很有钱,但在线服务的运营成本控制的很好,成本利润率高达545%,收益远超成本。

从介绍中看到,所有DeepSeek-V3/R1推理服务都在英伟达H800 GPU 上提供,精度与训练一致。具体来说,矩阵乘法和调度传输采用与训练一致的 FP8 格式,而核心 MLA计算和组合传输则使用 BF16,以确保最佳服务性能。

此外,由于白天服务负载高,夜间负载低,DeepSeek实施了一种机制,在白天高峰时段跨所有节点部署推理服务。在低负载的夜间时段,减少推理节点并分配资源进行研究和训练。

在过去 24 小时期间,V3和R1推理服务的总峰值节点占用了 278 个,平均占用 226.75 个节点,每个节点包含8个H800显卡。假设一个H800的租赁成本为每小时2 美元,则每天总成本为 87072 美元,约合人民币63万。

在 24 小时统计周期内,V3 和 R1:

输入的Token总数为6080亿,其中3420亿Token命中了磁盘上的 KVCache,命中率56.3%。总输出Token为1680亿,平均输出速度为每秒 20-22Token。

每个 H800 节点在预填充期间提供约73700个Token/s的输入(包括缓存命中)的平均吞吐量,在解码期间提供每秒14800个Token的输出。

以上统计信息包括来自网页对话框、手机APP 和 API 的所有用户请求。

如果所有Token都按照 DeepSeek-R1 的定价计费,则每日总收入将为562027美元,约合人民币409万,收入是成本的6.4倍,利润率为545%。

但实际上,由于DeepSeek-V3 的定价明显低于 R1,而且现在网页对话框和APP都是免费提供的,付费的API在非高峰时段还有折扣,所以,实际收入要远低于409万。

上图展示的是实际成本和理论收入值的情况

这充分证明,如果采用DeepSeek的各种优化技术来在集群里部署满血版的服务,则可以实现比较大的利润空间。

另外,目前还不知道与本地单机8张H800部署满血版的方案相比,在线集群部署的性价比差异大致是什么情况。

https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md