技术与工程双轮驱动 大模型推理新趋势呼唤创新解决方案

在人工智能蓬勃发展的当下,大模型成为推动产业变革的关键力量。从技术演进到产业应用,大模型正重塑着各个领域的发展格局,而与之紧密相关的算力基础设施和解决方案也在不断创新。

大模型发展新路径:技术与工程双轮驱动

大模型的发展正沿着“技术摸高”与“工程创新”两条路径前行。过去,头部企业主导着大模型能力的提升,不断追求更高的性能,对算力的需求也水涨船高。而DeepSeek的出现开辟了新方向,其凭借工程创新,在模型能力出色的同时,通过深开源降低了业界部署门槛。这一变革意义深远。

在数据层面,它开创了新训练模式,利用基础模型生成高质量合成数据,结合少量行业数据就能训练出强大的模型,突破了行业数据积累不足的瓶颈。比如一些中小企业,以往因缺乏大量高质量行业数据而难以涉足大模型领域,现在借助这种方式有了参与的机会。

在算力方面,DeepSeek降低了单个模型使用的算力门槛,使得企业在百卡/千卡范围内就能进行推理资源池建设、微调与二次训练。在模型获取上,开源的模式让企业不再受限于闭源模型的高门槛,推动了大模型在各行业的普及。

大模型架构也在发生显著变化,从少量大专家向大量小专家模式演进。以DeepSeek为例,其V2版本有160个专家,到V3版本增加到256个专家,激活参数占总参数的比例也有所下降。这就好比医院从少数全科专家转变为各科室有众多专科专家,服务变得更加精细和普及。在大模型领域,这种变化使得计算资源分配更合理,成本降低且应用更广泛。两种模式将长期共存,少量大专家持续追求性能极致,大量小专家促进创新普及。

大模型推理新趋势:大规模专家并行及挑战

随着大模型的发展,推理需求日益增长,大规模专家并行(EP)成为趋势。EP通过将专家分布到更多卡上,减少每张卡权重加载时延和显存占用,提升单卡并行路数,进而提高矩阵乘效率,实现更大吞吐和更低时延。

然而,大规模专家并行也面临诸多挑战。负载均衡问题首当其冲,就像医院里专家忙闲不均一样,如果模型中某些专家负载过高,而其他专家闲置,会导致资源利用效率低下。ALL2ALL通信占比时间过高也是一大难题,专家之间频繁的信息交互会占用大量时间,影响整体性能。以DeepSeek为例,在确定专家数量和卡的分配时,就需要在性能和资源利用之间寻找平衡,这也是工程实践中需要不断优化的关键。

昇腾大EP推理方案:创新突破与应用优势

为应对大规模专家并行带来的挑战,昇腾推出大EP推理方案。在负载均衡方面,采用MoE负载均衡技术,通过自动寻优、自动配比、自动预测、自动降解等功能,实现备份节点和副本专家的灵活扩展、高可用和极致均衡。在通信优化上,采用多种创新技术,如PD分离部署,传统的PD同节点部署存在计算访存资源竞争问题,业界静态分离方案虽有改进但不够灵活。昇腾的autoPD分离部署方案能自动感知负载变化,自动伸缩P、D实例,并结合多级缓存内存资源池化,使系统有效吞吐提升50%以上。

此外,双流/多维混合并行技术从多个维度提升性能,Prefill micro-batch双流并行、MoE expert专家双流并行以及Weight预取双流并行,分别在计算、通信和权重加载等环节优化,平均性能提升30%。MLAPO融合算子更是将小算子融合成单一算子,减少计算开销,降低计算耗时70%。

昇腾大EP推理方案具有显著优势。它降低了单卡显存占用,单卡并发提升到3倍,Decode时延降低50%以上,大大降低了客户部署成本,提升了用户体验。

不同行业应用:大EP方案的适配与优化

不同行业对大EP方案的需求存在差异。对于不同规模和需求的企业,该方案都能提供良好的支持。中小企业前期可采用一体机快速部署业务,随着业务发展,通过软件升级和参数面互联就能平滑扩展到大EP方案。

互联网行业用户规模庞大,C端应用动辄拥有百万级以上用户,对并发要求极高。对于大型企业,尤其是互联网企业,大EP方案能满足其高并发、低时延的严格要求。教育和医疗行业则相对用户规模较小,并发用户数在高峰期有所增加,但整体低于互联网行业。

针对这些差异,大EP方案通过多实例扩展的方式来满足不同行业需求。以64卡为一组作为一个实例,对于普通高校或小型医疗机构,单实例可能就能满足需求;而互联网客户则需要部署100组甚至更多组实例。在实际应用中,这种灵活的部署方式能够有效提升资源利用率,确保各行业都能获得良好的服务体验。

结语

大模型的发展正推动着技术和产业的深刻变革。从大模型架构的创新到推理方案的优化,再到不同行业的应用适配,每一个环节都蕴含着巨大的机遇和挑战。昇腾大EP推理方案凭借其创新技术和良好的适配性,在这场变革中展现出强大的竞争力,为各行业智能化转型提供了有力支撑,也为大模型产业的发展注入了新的活力。随着技术的不断进步,未来大模型领域有望迎来更多突破,创造更多价值。