导读
春节前最后一周,一款能与OpenAI满血版o1(指Full Version,非preview版本)相媲美的模型终于横空出世!月之暗面公司刚刚发布了其Kimi k系列模型的最新版本——k1.5多模态思考模型。
这款新模型在数学、代码以及多模态推理能力等各方面,都全面向OpenAI的满血版o1看齐,并且它是OpenAI之外首个实现这一水平的多模态o1级别模型。特别值得一提的是,其中的kimi-k1.5-short版本,更是成为了SOTA(state-of-the-art)级别的short cot模型,其性能大幅超越了GPT-4o和Claude 3.5 Sonnet,提升幅度高达550%。
月之暗面公司也因此成为了OpenAI之外,首家在数学和代码能力上达到满血o1水平的AI公司。在此之前,虽然有一些模型在各类Benchmark测试中能取得50分、60分的成绩(相当于o1-preview的水平),但OpenAI的满血版o1则是80分、90分的水平。而月之暗面的Kimi k1.5模型所取得的成绩,无疑让人眼前一亮。
文字编辑| 宋雨涵
1
k1.5多模态思考模型
连续三个月的不断更新
这是Kimi在连续推出创新模型后的又一重磅升级,继去年11月发布k0-math数学模型、12月推出k1视觉思考模型后,本月再次带来k系列强化学习模型的最新成员——k1.5多模态思考模型。
从基准测试成绩来看,k1.5模型在多模态推理和通用推理能力上均达到了SOTA(state-of-the-art)级别。在short-CoT模式下,Kimi k1.5在数学、代码、视觉多模态以及通用能力方面,均大幅超越了全球领先的短思考SOTA模型GPT-4o和Claude 3.5 Sonnet,领先幅度高达550%。
而在long-CoT模式下,Kimi k1.5的数学、代码、多模态推理能力也与长思考SOTA模型OpenAI o1正式版不相上下,成为全球范围内OpenAI之外首家实现o1正式版多模态推理性能的公司。
2
Kimi如何做到满血版多模态o1水平
公开模型训练技术报告
伴随着k1.5 多模态思考模型的发布,Kimi 技术团队也第一次准备了详细的技术报告,记录和分享新技术范式下的模型训练技术探索之路:
《Kimi k1.5:借助大语言模型实现强化学习的 Scaling》
(github 链接:https://github.com/MoonshotAI/kimi-k1.5)。
通过这份技术报告,我们可以了解到关于k1.5模型设计和训练的几个关键要素:
1、长上下文扩展:将RL的上下文窗口扩展到128k,并观察到随着上下文长度的增加,性能持续提升。这个方法背后的一个关键思想是,使用部分展开(partial rollouts)来提高训练效率——即通过重用大量先前的轨迹来采样新的轨迹,避免了从头开始重新生成新轨迹的成本。观察表明,上下文长度是通过LLMs持续扩展RL的一个关键维度。
2、改进的策略优化:Kimi成功推导出了long-CoT的RL(强化学习)公式,并采用了在线镜像下降的变体来实现稳健的策略优化。这一算法还通过我们的有效采样策略、长度惩罚机制以及数据配方的优化得到了进一步的提升。
3、建立简洁的框架:为通过大型语言模型(LLMs)的学习建立了一个简洁明了的RL框架。由于Kimi能够扩展上下文的长度,因此学习到的思考链(CoTs)展现出了规划、反思和修正的特性。上下文长度的增加,实际上增加了搜索步骤的数量,从而提升了模型的性能。这证明了可以在不依赖更复杂技术(如蒙特卡洛树搜索、价值函数和过程奖励模型)的情况下,实现强大的性能表现。
4、多模态能力的突破:模型在文本和视觉数据上进行了联合训练,具备了同时推理两种模态的能力。该模型在数学方面表现出色,但由于主要支持LaTeX等格式的文本输入,对于依赖图形理解能力的部分几何图形题仍存在一定的挑战。
3
全力冲刺AGI
对于此次发布,月之暗面创始人表示:“Kimi k1.5模型的发布是我们团队不懈努力的结果,也是我们向AGI(通用人工智能)目标迈进的重要一步。我们希望通过公开模型训练技术报告,与更多技术人才分享我们的经验和成果,共同推动AI技术的发展和进步。”
展望未来,月之暗面表示将继续沿着既定路线图加速升级k系列强化学习模型,拓展更多模态、更多领域的能力,并不断提升通用能力水平。我们有理由相信,在不久的将来,Kimi将成为国产AI领域的佼佼者,为全球AI技术的发展贡献更多中国智慧和力量。