导读
3月16日,百度宣布正式发布文心大模型4.5及文心大模型X1,在文心一言官网即可免费使用这两款大模型。
此前,百度曾宣布文心一言将于4月1日免费。在最新发布两款大模型的同时,为全面提升用户体验,百度将免费时间提前。
文心4.5是多模态模型,能综合解读文字、图片、视频、音频等。比如,给它一个视频,它就能识别内容并写出深度分析,英文解读也很出色,能力远超OpenAI的GPT-4。
X1和DeepSeek-R1一样,有深度思考能力,能理解、规划、反思、进化,也支持多模态。此外,X1是首个能自动用高级搜索、文档问答、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询等特色工具的智能体,推理能力超强。
文字编辑| 宋雨涵
1
能力更强,价格更低
多模态融合与深度思考能力跃升
文心大模型4.5是百度首个原生多模态大模型,通过FlashMask动态注意力掩码和多模态异构专家扩展技术,实现文本、图片、音频、视频的联合建模与高效解析。其多模态理解能力覆盖梗图、漫画、电影等非结构化内容。
文心大模型X1则聚焦递进式强化学习与工具调用能力,支持中文知识问答、文学创作、逻辑推理等场景,并能自主调用高级搜索、AI绘图、代码解释器等工具。
文心大模型4.5具备如下关键技术:
- FlashMask动态注意力掩码:加速大模型灵活注意力掩码计算,有效提升长序列建模能力和训练效率,优化长文处理能力和多轮交互表现;
- 多模态异构专家扩展技术:根据模态特点构建模态异构专家,结合自适应模态感知损失函数,解决不同模态梯度不均衡问题,提升多模态融合能力;
- 时空维度表征压缩技术:在时空维度对图片和视频的语义表征进行高效压缩,大幅提升多模态数据训练效率,增强了从长视频中吸取世界知识的能力;
- 基于知识点的大规模数据构建技术:基于知识分级采样、数据压缩与融合、稀缺知识点定向合成技术,构建高知识密度预训练数据,提升模型学习效率,大幅降低模型幻觉;
- 基于自反馈的Post-training技术:融合多种评价方式的自反馈迭代式后训练技术,全面提升强化学习稳定性和鲁棒性,大幅提升预训练模型对齐人类意图能力。
文心大模型X1则具备如下技术:
- 递进式强化学习训练方法:创新性地应用递进式强化学习方法,在创作、搜索、工具调用、推理等场景全面提升模型的综合应用能力;
- 基于思维链和行动链的端到端训练:针对深度搜索、工具调用等场景,根据结果反馈进行端到端的模型训练,显著提升训练效果;
- 多元统一的奖励系统:建立了统一的奖励系统,融合多种类型的奖励机制,为模型训练提供更加优秀的反馈。
前沿数据对比

z该柱状图展示了不同基准测试在ERNIE-4.5和GPT-40上的表现情况。图中横轴列出了各个基准测试的名称,包括平均值、CCCBench、OCRBench、ChartQA、MMMU、MathVista、DocVQA和MVBench。纵轴表示测试得分。每个基准测试都有两根柱子,分别代表ERNIE-4.5(红色)和GPT-40(蓝绿色)的得分。从图中可以看出,ERNIE-4.5在DocVQA基准测试上得分最高,而在MMMU上得分最低;GPT-40在DocVQA上同样取得较高得分,而在MathVista上得分相对较低。整体来看,ERNIE-4.5和GPT-40在不同基准测试上的表现各有优劣,ERNIE-4.5在多数基准测试上的得分要高于GPT-40。
再来看看价格方面

这张图片展示了文心大模型X1与DeepSeek R1在输入和输出价格上的对比。在输入价格方面,文心X1的价格为0.002元/千Tokens,而DeepSeek R1的价格为0.004元/千Tokens,文心X1的输入价格更具优势。在输出价格方面,文心X1的价格为0.008元/千Tokens,DeepSeek R1的价格为0.016元/千Tokens,文心X1的输出价格同样更为经济。总体来看,文心大模型X1在输入和输出价格上均低于DeepSeek R1,显示出更高的性价比。
2
构建开发者生态
开源时间与技术普惠
百度宣布将于2025年6月30日开源文心4.5,涵盖轻量化模型、多模态模块及训练工具链,吸引开发者共建生态。李彦宏强调,开源源于对技术领先地位的信心,旨在通过“用户基数→数据反馈→模型迭代”循环扩大应用场景。
开源模型支持与第三方云平台混合部署,降低企业使用门槛。百度智能云通过托管服务、算力租赁等实现“开源引流-云服务创收”闭环,已帮助33,000个模型精调,开发77万个企业应用。
行业巨头纷纷提速
今年以来,在DeepSeek的推动下,行业巨头加速了AI大模型领域的业务布局。3月12日,谷歌CEO宣布开源多模态大模型Gemma 3,包含10亿至270亿四种参数规模,即便最小规模也具备强大处理能力。在LMArena测试中,270亿参数的Gemma 3表现卓越,击败多款模型,成为仅次于DeepSeek-R1的最优开源模型。
同时,谷歌推出基于Gemini 2.0的Gemini Robotics及Gemini Robotics-ER两款模型,旨在开发更灵活的互动机器人,拓展应用场景。
同日,OpenAI发布AI Agent应用开发新工具包,包括Responses API、首款开源Agents SDK等,SDK支持多Agent动态任务协作,可开发复杂智能自动化流程。
此外,Meta正与台积电合作测试其自研AI训练芯片,继去年成功部署推理任务处理器后,计划2025年投入650亿美元于AI基础设施建设。