在人工智能技术呈指数级发展的时代浪潮中,深度学习模型作为核心驱动力,正以前所未有的速度重塑着各个领域的发展格局。在这一蓬勃发展的进程里,DeepSeek系列模型凭借其独树一帜的MLA(Multi-Layer Adaptive Architecture)架构,宛如一颗璀璨的新星,在众多模型中脱颖而出。
传统的Transformer模型在面对日益复杂的任务和海量的数据时,逐渐暴露出效率瓶颈与内存利用不足的问题。而MLA架构的出现,恰似一场及时雨,为解决这些难题带来了全新的思路与方向。它打破了传统模型那种按部就班、逐层递进的线性思维定式,构建起多层异构网络的动态协作体系。这种独特的架构设计,就像是赋予了AI一个灵活多变的 “动态思维中枢”,使得模型在处理任务时,不再局限于单一维度的信息处理模式。
当面对一段语义模糊、逻辑复杂的文本时,MLA架构能够借助多层异构网络的协同工作,从不同层面、不同角度对文本进行剖析。每一层网络都如同一个具备自主意识的智能体,能够根据实时任务需求,自主地激活、重组,甚至创造全新的连接路径。这种高度类人脑的弹性认知机制,极大地拓展了AI解决实际问题的边界,让模型在推理效率和内存使用效率上都实现了质的飞跃,同时还能精准地保持模型的精度,为人工智能的发展开辟了新的道路。
早在2024年5月DeepSeek-V2发布之际,昇腾CANN迅速聚焦于MLA架构,投入大量研发资源进行适配优化,成为业界首发支持MLA融合算子,并实现了与DS系列模型的原生适配。这一成果不仅标志着昇腾CANN在技术上的重大突破,更意味着DeepSeek系列模型在实际应用中的性能将得到大幅提升。
随着DeepSeek系列模型不断迭代演进,昇腾CANN并未满足于已有的成绩,而是继续深入探索推理预处理阶段中MLA的计算加速技术。在这个过程中,VV融合及更底层的超级融合方式成为了他们提升效率的关键“武器”。
以DeepSeekV3-671B模型为例,其计算过程较为复杂。初始时,token的HiddenSize为7K,首先会经由Q和KV两个降维矩阵完成降维,降维后Q的HiddenSize变为1536,KV为576。Q经过RmsNorm后,进入Q升维矩阵做矩阵乘,升维后每个token变为128个Head,每个Head的HeadDim为192。随后,Q与KV会分别进行切分操作,Q切分成64+128,KV切分成64+512,其中64进入rope,K的另一半进入RmsNorm,Q的另一半进入K升维矩阵做矩阵乘。最后,Q和KV分别把各自的Head合并,输出结果给MLA算子使用。
昇腾首先采用VV融合方式,这是一种极为高效的优化手段。它将2串密集的Vector小算子融合为单一算子,实现性能翻倍。在DeepSeek-V3/R1推理业务中,小算子排布密集,尤其是MLA的预处理阶段,这种短平快的融合方式成效显著。

为了进一步挖掘性能潜力,昇腾采用更加底层的优化策略,将整个MLA预处理阶段的Vector和Cube计算并行处理,并通过流水优化等方式,把前处理过程中的13个小算子融合成一个超级大算子MLAPO(Mla Preprocess Operation)。
通过这种大型融合方式,小算子的头开销和下发开销基本消除。在VV融合的基础上,算子性能再次提升50%以上, DeepSeek-V3整网计算性能提升20%以上。
展望未来,随着人工智能应用场景的不断拓展和深化,对模型性能和效率的要求也将愈发严苛。昇腾CANN创新的MLA算子,凭借在DeepSeek系列模型上取得的显著优化成果,已然成为行业内的标杆案例。
在未来的技术探索道路上,昇腾CANN团队将继续秉持创新精神,深入研究硬件与软件的协同优化策略,不断探索更多适用于不同场景的融合方式和计算加速技术。他们不仅会在现有成果的基础上持续深耕,进一步提升DeepSeek系列模型的性能表现,还将积极拓展技术应用边界,推动MLA算子在更多类型的模型中发挥效能。
相信在昇腾CANN团队的不懈努力下,创新的MLA算子将持续引领人工智能计算效率的提升潮流,为AI领域的蓬勃发展注入源源不断的强大动力,助力人工智能技术在更广泛的领域实现深度应用和突破。