腾讯混元T1与英伟达Nemotron-H双星闪耀:混合架构模型开启AI推理新纪元

导读

当Mamba遇上Transformer,计算效率与推理速度的革命性跃迁

3月21日,中国科技巨头腾讯与全球芯片霸主英伟达几乎同步发布基于Mamba-Transformer混合架构的新一代大模型,分别推出混元T1与Nemotron-H系列。两大科技巨头的动作不仅标志着混合架构技术从实验室走向工业级应用,更揭示了AI大模型在长文本处理、超低延迟推理、硬件适配性等领域的核心竞争焦点。

文字编辑|宋雨涵

1

腾讯混元T1

首字秒出,吐字速度达80 token/s的“深度思考者”

该模型的前身是,今年2月中旬混元团队在腾讯元宝APP上线的基于混元中等规模底座的混元T1-Preview(Hunyuan-Thinker-1-Preview)推理模型。

相比于T1-Preview,T1正式版基于腾讯混元3月初发布的业界首个超大规模Hybrid-Transformer-Mamba MoE大模型TurboS快思考基座,通过大规模后训练扩展了推理能力,并进一步对齐人类偏好,这也是工业界首次将混合Mamba架构无损应用于超大型推理模型。

T1在多个公开数据集的评测结果显示,在MMLU-pro、CEval、AIME、Zebra Loigc等中英文知识和竞赛级数学、逻辑推理指标上基本持平或略超R1。

目前,T1已在腾讯云官网上线,输入价格为每百万tokens 1元,输出价格为每百万tokens 4元,输出价格为DeepSeek标准时段的1/4,与DeepSeek优惠时段一致。

其核心突破体现在三大维度

超低延迟推理:通过动态KV-Cache压缩算法,将传统Transformer的内存占用降低40%,实现首字秒出(First Token Prompt)和80 token/s的吐字速度,在实时交互场景中优势显著。

长文本处理:针对学术论文、法律文书等超长文本场景,混合架构通过Mamba的线性复杂度特性优化长序列计算,使解码速度提升2倍,同时保持99.2%的上下文完整性。

强化学习驱动的推理能力:在数学、逻辑推理等硬核领域,混元T1通过大规模强化学习微调,在MMLU-PRO基准测试中以87.2分超越GPT-4.5(86.1分),逼近OpenAI o1(89.3分)。

2

英伟达也推出混合架构模型

英伟达Nemotron-H

在NVIDIA GTC 2025大会上,NVIDIA宣布推出具有推理功能的开放Llama Nemotron模型系列。这一新系列旨在为开发人员和企业提供强大的基础,以创建能够独立工作或协作解决复杂任务的高级AI Agents。

Llama Nemotron推理系列基于Llama模型构建,并经过了多个强化学习(RL)阶段的后期训练,使用了REINFORCE (RLOO) 和RPO算法来优化聊天和指令遵循能力。该模型适用于推理、人类聊天偏好以及RAG(检索增强生成)和工具调用等多种任务,并支持长达128K个标记的上下文长度。

此外,NVIDIA AI Enterprise还推出了最新的Agentic AI构建模块,包括NVIDIA AI-Q蓝图、AI数据平台、NIM微服务和NeMo微服务。这些工具和软件旨在简化高级推理模型的部署和优化,从而加速协作AI系统的开发和应用。

NVIDIA AI-Q蓝图使企业能够将知识连接到能够自主感知、推理和行动的AI Agents。该蓝图采用NVIDIA NIM微服务构建,并集成了NVIDIA NeMo Retriever™以实现多模式信息检索。同时,NVIDIA AgentIQ工具包也被用于实现Agents和数据连接、优化和透明度,并且已经开源。

此次推出的Llama Nemotron推理模型系列和Agentic AI构建模块,将为开发人员和企业提供更多选择和工具,以推动AI技术的创新和应用。

其技术亮点包括

极致推理效率

在MMLU-Pro基准测试中,Nemotron-H-56B以FP4精度实现3倍于纯Transformer模型的吞吐量,单卡RTX 5090即可支持百万token长上下文推理。

硬件深度适配

通过扫描算法(Scan)优化与混合精度流水线,在昇腾910B集群上训练时,显存占用降低18%,推理延迟减少23%。

开源生态布局

作为物理AI框架Cosmos-Reason 1的骨干网络,Nemotron-H-47B(蒸馏版)以630亿token训练数据实现与千亿模型相当的精度,推动科研机构低成本复现前沿成果。

Mamba-Transformer混合架构

当前主流的混合架构主要采用层级混合与序列级混合两种策略:

层级混合(腾讯混元T1):

Mamba模块:处理长序列数据(如法律文书、代码生成),通过SSD理论打通与Transformer的数学关联,减少KV-Cache内存占用40%。

Transformer模块:保留全局注意力机制,确保复杂上下文捕捉能力,避免长文本推理中的信息丢失。

动态路由机制:根据输入序列长度自动分配计算资源,短序列优先使用Transformer,长序列调用Mamba模块优化效率。

序列级混合(英伟达Nemotron-H):

在每个序列位置动态选择Mamba或Transformer计算路径,实现首字响应时间<500ms,吐字速度达80 token/s。

通过扫描算法(Scan)替代传统卷积,使单卡RTX 5090即可支持百万token长上下文推理。

写在最后

从混元T1的“秒级响应”到Nemotron-H的“物理级精度”,混合架构技术正在解构AI发展的底层逻辑。正如英伟达创始人黄仁勋在GTC 2025所言:“软件优化才是释放硬件潜能的终极密码。”未来,这场由架构创新引发的变革,或将重塑从数据中心到边缘计算的整个AI生态。