导读
随着农历新年渐近,整个社会沉浸在一片辞旧迎新的热烈氛围之中。而在人工智能领域,同样上演着一场激动人心的变革大戏。国产大模型纷纷展现强大实力,智谱与Mini Max以震撼开源之举吸引行业目光,与此同时,智谱全新模型正式发布。这些举措无疑将对人工智能产业格局产生深远影响,接下来让我们一同深入剖析其中的关键进展与潜在意义。
智谱发布GLM-4-Air、GLM-4V-Plus模型,设立Flash全模态免费模型
MiniMax震撼开源,突破传统Transformer架构
面壁智能最新的模型——MiniCPM-o 2.6
文字编辑|宋雨涵
1
智谱发布GLM-4-Air、GLM-4V-Plus模型
全新功能升级
GLM-Realtime
继「智谱清言」视频通话功能后,智谱深入探索语言、语音、图像及视频理解与生成,推出GLM-Voice、GLM-4V、CogView、CogVideoX等多模态模型。
现发布全新端到端多模态模型GLM-Realtime,实现近乎实时视频理解与语音交互,含清唱功能,支持2分钟记忆及Function Call。同时,升级GLM-4-Air和GLM-4V-Plus模型,提供高性价比语言模型解决方案。特别设立Flash系列普惠模型,免费开放,助力开发者创新。
超高性价比
GLM-4-Air
GLM-4-Air自上线以来,凭借「高性价比」赢得了平台开发者的广泛青睐。今日,我们推出全面升级版——GLM-4-Air-0111。通过对于训练数据和训练流程的全面优化,GLM-4-Air-0111在多个维度上实现了性能飞跃,接近规模更大的GLM-4-Plus模型。
与此同时,GLM-4-Air-0111的价格降至原来的50%,大幅降低企业落地大模型应用的门槛。
同时,我们针对视觉理解模型GLM-4V-Plus也进行了全面升级。新版本在多个公开榜单上均展现出显著的效果提升。
更新后的GLM-4V-Plus支持变分辨率功能,能够适应不同尺寸的图像输入,在小图场景下显著降低token消耗(例如,224 * 224的分辨率下,输入的图像token数仅为原来的3%),同时支持4K超清图像和极致长宽比图像的无损识别。
此外,新版GLM-4V-Plus还具备长达2小时的视频理解能力,为视频理解和分析领域提供了更加高效、精准的解决方案。
2
MiniMax震撼开源,突破传统Transformer架构
比肩顶尖模型的开源模型
2025年,AI Agent或将大量加入劳动力,影响公司生产力。OpenAI CEO Sam Altman、Meta CEO Mark Zuckerberg及英伟达CEO黄仁勋均预测2025年为AI Agent之年。随后,MiniMax开源了新模型MiniMax-Text-01和MiniMax-VL-01,采用线性注意力机制,处理上下文长达400万token,助力Agent应用爆发。
MiniMax-Text-01 的架构
MiniMax-Text-01通过一系列创新,如新型线性注意力、改进版混合专家架构等,解决了大模型在处理超长上下文时的效率与效果问题。其架构中的Lightning Attention大幅降低了计算复杂度。混合专家(MoE)技术也提升了模型效率。此外,MiniMax还采用了数据格式化、分批核融合等优化策略。
MiniMax-Text-01拥有4560亿参数,上下文长度可达400万token,在学术测试集上表现卓越,超越多个闭源和开源模型。在长上下文理解任务上,其优势尤为明显。MiniMax-VL-01作为多模态版本,同样表现出色。
MiniMax认为,足够大的上下文窗口是Agent技术发展的关键。他们正研究更高效架构,以支持无限上下文窗口。同时,多模态token的加入将使Agent逐步进入物理世界。MiniMax创始人展望下一代AI将无限接近图灵测试,交互自然,无处不在。
3
面壁智能最新的模型——MiniCPM-o 2.6
火爆外网,大量网友刷屏
这个AI是面壁智能的最新模型MiniCPM-o 2.6,因仅8B体量却能在多模态能力上与GPT-4o比肩而在海外爆火,且能在iPad上运行。MiniCPM-o 2.6能精准识别翻书声、咳嗽声等,在看和说方面也有出色表现,如“睁眼”玩儿三仙归洞、扮演各种角色等。网友们称赞其超酷,像给iPad装了第二个大脑。
面壁智能还公布了MiniCPM-o 2.6在多模态能力评测榜单的成绩,整体能力已可比肩GPT-4o,部分项目甚至超越。面壁智能称MiniCPM-o 2.6为开源社区最强语音、端侧视觉、实时流式多模态模型。实测中,MiniCPM-o 2.6视力水平高,能精准回答删除的字、识别游戏名等,因其能做到真·看视频,持续对实时视频和音频建模。
在视觉方面,MiniCPM-o 2.6对图片的理解和推理能力也更上一层楼,能指导调整自行车座椅、帮忙解题等,基于其强大的OCR能力。在说的方面,MiniCPM-o 2.6能用四川话教煮火锅等。
这些能力得益于其端到端全模态架构,综合考虑不同模态间的关联和交互,使用交叉熵损失进行端到端训练,并适应流式输入输出,通过OTDM处理多模态信息片段,再传递给全模态流式骨干网络提取特征并融合。面壁团队还设置了可配置的声音方案,支持声音风格的生成、克隆和音色创建等。
MiniCPM-o 2.6是面壁智能更大计划的一环,面壁团队聚焦于端侧模型之路,认为AI原生应用+AI原生硬件是新时代需要的操作系统,而端侧能运行大模型的硬件即AI原生硬件,因此端侧大模型很重要。面壁智能此前已发布多个高效端侧模型,如MiniCPM系列,且在CES上亮相。
MiniCPM-o 2.6加上了多模态实时语音交互能力,离人人可用的端侧模型更近,也便利了视障人士友好出行。面壁智能的端侧模型开源,拥有更多应用场景,适合部署在智能眼镜等设备上。国产开源力量表现亮眼,面壁智能、DeepSeek、阿里Qwen有“中国大模型开源三剑客”之势。
写在最后
智谱发布新模型并设立免费普惠模型,MiniMax开源新模型突破传统架构,面壁智能的MiniCPM o 2.6以小体量展现强大多模态能力在海外爆火。这些成果体现了国产大模型在技术创新、性价比提升、开源共享等多方面的积极探索和卓越成就。
这一系列的进展表明,国产大模型正以强劲的发展势头崛起,无论是在模型的功能优化、性价比提升,还是在开源共享以促进全球技术交流等方面,都有着不可忽视的影响力。在未来,我们有理由期待国产大模型将继续在全球人工智能产业格局中扮演更为重要的角色,不断推动人工智能技术向更广泛、更深入的方向发展,为社会各个领域带来更多的创新和变革。