大模型卷出新高度！AI惠普时代来临，文心一言宣布「全面免费」，同时开启「深度搜索」-DOIT-数据产业媒体与服务平台

导读

3月16日，百度宣布正式发布文心大模型4.5及文心大模型X1，在文心一言官网即可免费使用这两款大模型。

此前，百度曾宣布文心一言将于4月1日免费。在最新发布两款大模型的同时，为全面提升用户体验，百度将免费时间提前。

文心4.5是多模态模型，能综合解读文字、图片、视频、音频等。比如，给它一个视频，它就能识别内容并写出深度分析，英文解读也很出色，能力远超OpenAI的GPT-4。

X1和DeepSeek-R1一样，有深度思考能力，能理解、规划、反思、进化，也支持多模态。此外，X1是首个能自动用高级搜索、文档问答、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询等特色工具的智能体，推理能力超强。

文字编辑｜宋雨涵

能力更强，价格更低

多模态融合与深度思考能力跃升

文心大模型4.5是百度首个原生多模态大模型，通过FlashMask动态注意力掩码和多模态异构专家扩展技术，实现文本、图片、音频、视频的联合建模与高效解析。其多模态理解能力覆盖梗图、漫画、电影等非结构化内容。

文心大模型X1则聚焦递进式强化学习与工具调用能力，支持中文知识问答、文学创作、逻辑推理等场景，并能自主调用高级搜索、AI绘图、代码解释器等工具。

文心大模型4.5具备如下关键技术：

FlashMask动态注意力掩码：加速大模型灵活注意力掩码计算，有效提升长序列建模能力和训练效率，优化长文处理能力和多轮交互表现；

多模态异构专家扩展技术：根据模态特点构建模态异构专家，结合自适应模态感知损失函数，解决不同模态梯度不均衡问题，提升多模态融合能力；

时空维度表征压缩技术：在时空维度对图片和视频的语义表征进行高效压缩，大幅提升多模态数据训练效率，增强了从长视频中吸取世界知识的能力；

基于知识点的大规模数据构建技术：基于知识分级采样、数据压缩与融合、稀缺知识点定向合成技术，构建高知识密度预训练数据，提升模型学习效率，大幅降低模型幻觉；

基于自反馈的Post-training技术：融合多种评价方式的自反馈迭代式后训练技术，全面提升强化学习稳定性和鲁棒性，大幅提升预训练模型对齐人类意图能力。

文心大模型X1则具备如下技术：

递进式强化学习训练方法：创新性地应用递进式强化学习方法，在创作、搜索、工具调用、推理等场景全面提升模型的综合应用能力；

基于思维链和行动链的端到端训练：针对深度搜索、工具调用等场景，根据结果反馈进行端到端的模型训练，显著提升训练效果；

多元统一的奖励系统：建立了统一的奖励系统，融合多种类型的奖励机制，为模型训练提供更加优秀的反馈。

前沿数据对比

z该柱状图展示了不同基准测试在ERNIE-4.5和GPT-40上的表现情况。图中横轴列出了各个基准测试的名称，包括平均值、CCCBench、OCRBench、ChartQA、MMMU、MathVista、DocVQA和MVBench。纵轴表示测试得分。每个基准测试都有两根柱子，分别代表ERNIE-4.5（红色）和GPT-40（蓝绿色）的得分。从图中可以看出，ERNIE-4.5在DocVQA基准测试上得分最高，而在MMMU上得分最低；GPT-40在DocVQA上同样取得较高得分，而在MathVista上得分相对较低。整体来看，ERNIE-4.5和GPT-40在不同基准测试上的表现各有优劣，ERNIE-4.5在多数基准测试上的得分要高于GPT-40。

再来看看价格方面

这张图片展示了文心大模型X1与DeepSeek R1在输入和输出价格上的对比。在输入价格方面，文心X1的价格为0.002元/千Tokens，而DeepSeek R1的价格为0.004元/千Tokens，文心X1的输入价格更具优势。在输出价格方面，文心X1的价格为0.008元/千Tokens，DeepSeek R1的价格为0.016元/千Tokens，文心X1的输出价格同样更为经济。总体来看，文心大模型X1在输入和输出价格上均低于DeepSeek R1，显示出更高的性价比。

构建开发者生态

开源时间与技术普惠

百度宣布将于2025年6月30日开源文心4.5，涵盖轻量化模型、多模态模块及训练工具链，吸引开发者共建生态。李彦宏强调，开源源于对技术领先地位的信心，旨在通过“用户基数→数据反馈→模型迭代”循环扩大应用场景。

开源模型支持与第三方云平台混合部署，降低企业使用门槛。百度智能云通过托管服务、算力租赁等实现“开源引流-云服务创收”闭环，已帮助33,000个模型精调，开发77万个企业应用。

行业巨头纷纷提速

今年以来，在DeepSeek的推动下，行业巨头加速了AI大模型领域的业务布局。3月12日，谷歌CEO宣布开源多模态大模型Gemma 3，包含10亿至270亿四种参数规模，即便最小规模也具备强大处理能力。在LMArena测试中，270亿参数的Gemma 3表现卓越，击败多款模型，成为仅次于DeepSeek-R1的最优开源模型。

同时，谷歌推出基于Gemini 2.0的Gemini Robotics及Gemini Robotics-ER两款模型，旨在开发更灵活的互动机器人，拓展应用场景。

同日，OpenAI发布AI Agent应用开发新工具包，包括Responses API、首款开源Agents SDK等，SDK支持多Agent动态任务协作，可开发复杂智能自动化流程。

此外，Meta正与台积电合作测试其自研AI训练芯片，继去年成功部署推理任务处理器后，计划2025年投入650亿美元于AI基础设施建设。

大模型卷出新高度！AI惠普时代来临，文心一言宣布「全面免费」，同时开启「深度搜索」

lixiangjing

相关推荐

近期文章

热门标签