你是o1那我是谁?国产模型“对标”OpenAI!昆仑万维“天工大模型4.0”o1版登场,但迅速更新迭代背后的道阻且长

引言

【算力豹导读】今天,昆仑万维正式推出具有复杂思考推理能力的系列模型——「天工大模型4.0」 o1版(Skywork o1)。

Skywork o1是由昆仑万维集团发布的具有慢思考推理能力的系列模型。这是国内第一款中文逻辑推理能力的o1模型。

不同于现有的复现OpenAI o1模型的工作,Skywork o1不仅在模型输出上内生了思考、计划、反思等能力,同时,该开源模型在标准评测集上,对比普通模型推理能力大幅上升,真正让模型拥有了思考和反思带来的推理能力的提升。团队复现o1的技术路线,使得初始推理能力较差的基座模型在基准测试集上成为生态位SOTA。

昆仑万维的大模型之路

昆仑万维:将继续践行“All in AGI 与 AIGC” 纵深推进人工智能在游戏等多领域应用

昆仑万维致力于实现通用人工智能。凭借超前的战略眼光,公司现已完成“算力基础设施—大模型算法—AI应用”全产业链布局,位列国内人工智能企业第一梯队。目前,公司主要业务涵盖AGI与AIGC业务,海外信息分发与元宇宙业务,以及投资业务。

2020年开始,昆仑万维就关注大模型和AIGC领域,目前已成功构建了包括AI大模型、AI搜索、AI音乐、AI视频、AI社交、AI游戏等在内的多元AI业务矩阵,部分业务已实现商业化落地,为公司开启第二增长曲线。

2023年4月,公司发布自主研发的“天工1.0”大模型。时至同年9月,在权威推理榜单Benchmark GSM8K测试中,天工以80%的正确率显著领先于GPT-3.5的57.1%和LLaMA2-70B的56.8%,推理能力已达到全球领先水平;2024年2月,公司天工大模型迎来2.0版本,相较此前版本,其应对复杂任务能力更强、模型响应速度更快、训练及推理效率更高、可扩展性更强。

昆仑万维在推出天工大模型后,不断对其进行迭代升级。从天工1.0到天工3.0,再到最新的天工大模型4.0 4o版(Skywork 4o),昆仑万维在研发上的投入持续增加,致力于提升大模型的性能和智能水平。直至今日昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试

Skywork o1

此次发布的Skywork o1包括三款模型,既有回馈开源社区的开放版本,也有能力更强的专用版本:

Skywork o1 Open:一款基于Llama 3.1 8B的开源模型,该模型在同生态位开源模型中评测指标大幅提升达到SOTA水平,并解锁了许多轻量级模型无法解决的复杂数学任务。该模型的发布也将帮助加速国内开源社区复现o1的进程。Skywork o1 Lite:该模型具备完整的思考能力,具有更好的中文支持和更快的推理和思考速度。在数学、中文逻辑和推理类问题上表现突出。Skywork o1 Preview:这款模型是本次完整版的推理模型,搭配自研的线上推理算法,对比Skywork o1 Lite有着更多样和“深度”的思考过程,更完善和更高质量的推理。

强推理以及自我反思的能力

推理反思能力训练:通过自研的多智能体体系构造高质量的分步思考,反思和验证数据。通过高质量的、多样性的长思考数据对基座模型进行继续预训练和监督微调。

推理能力强化学习:团队研发了最新的适配分步推理强化的Skywork o1 Process Reward Model(PRM)。实验证明Skywork-PRM可有效的捕捉到复杂推理任务中间步骤和思考步骤对最终答案的影响。结合自研分步推理强化算法进一步加强模型推理和思考能力。

推理planning:基于天工自研的Q*线上推理算法配合模型在线思考,并寻找最佳推理路径。这也是全球首次将Q*算法实现和公开。Q*算法落地也大大提升了模型线上推理能力。

“天工大模型4.0”o1版能力测试

相较于此前(长文本任务)大模型,无论是常识推理问题、逻辑推理问题、数学推理问题、伦理决策问题、还是“弱智”(类似脑筋急转弯)逻辑陷阱问题等,Skywork o1都处理的游刃有余。整体来说,Skywork o1 Lite和Skywork o1 Preview线上版本在复杂问题分析、思考反思过程、输出答案质量上均有大幅提升。

首先,我们拿一道「2024年全国硕士研究生入学统一考试数学(一)试题」考考它(如下图所示),测试一下它的“智力水平”。

面对难度不小的最新考研数学题,Skywork o1 Preview尽管花费了一些时间,但还是一步步推理出了正确结果。

那么,之前大模型经常翻车的比大小问题,Skywork o1现在的回答水平如何了?

从它的思考过程可以看出,Skywork o1的模型思考和规划能力大幅提升。这个解题逻辑非常像人类的思考方法了,“如果整数部分相同,那么就要开始比较小数部分了”。通过严谨的推理过程,准确得出8.8大于8.11,且多给出了一步差值计算。

此外,模型自我反思能力和自我验证能力也都有长足进步。Skywork o1可以准确识别出“nǐ hǎo hěn gāo xìng rèn shí nǐ”,还可以给出后续对话建议。

尽管我们让它回答存在中文读音“陷阱”的问题——“请将qíng rén yǎn lǐ chū xī shī转换为中文”,它也没有被我们绕进去。充分展示了中文逻辑问题思考中的反思能力,它主动发现了“西诗”是不对的说法,而是“西施”。

同样的,对于之前的大模型来说,“算24点”的游戏很容易把模型搞崩溃了,但是对于Skywork o1来说,可谓是小菜一碟。它不仅给出了正确答案,重点是它在过程中进行了「自我验证」。它在计算过后,又检查了一遍,确认过程和答案全部符合命题要求,才给出最终答案。

昆仑万维的大模型之路道阻且长

昆仑万维大模型产品不断更新迭代的背后业绩并不乐观

高额研发投入:昆仑万维为保持竞争优势,在AI技术上进行了大量的研发投入。例如,2024年前三季度,公司的研发费用提升至11.44亿元,同比大幅增长84.47%。然而,持续的高投入并未立刻带来预期的收益。

净亏损持续扩大:尽管营业收入有所增长,但昆仑万维的净亏损却在持续扩大。2024年前三季度,公司净亏损达到6.27亿元,第三季度净亏损为2.37亿元,同比大幅下降695.9%。

同时,人事层面发生变动,AI界知名科学家离职。“All in AGI与AIGC”的战略下,研发、部署和维护需要巨大的资金投入,目前来看,昆仑万维在AI应用层面沿袭了公司此前一贯“追热点”的传统,从搜索到智能助手,从游戏到音乐、短剧、社交,试图多点开花,但落地效果仍有待后续观察。

面临的挑战与机遇

市场竞争加剧:随着AI技术的不断发展,越来越多的企业开始涉足大模型和AIGC领域。这使得昆仑万维面临着更加激烈的市场竞争。为了保持竞争优势,昆仑万维需要不断创新和升级其产品和技术。

商业化落地挑战:尽管昆仑万维在大模型和AIGC领域取得了显著成果,但如何将这些技术转化为实际的商业价值仍然是一个挑战。昆仑万维需要不断探索新的商业模式和应用场景,以实现技术的商业化落地。

人才和技术储备:为了保持在大模型和AIGC领域的领先地位,昆仑万维需要不断吸引和培养高素质的人才,并加强技术储备和研发能力。同时,还需要与业界保持紧密的合作关系,共同推动AI技术的发展和应用。

结语

昆仑万维的“天工大模型4.0”o1版的推出是国产AI大模型在对标OpenAI过程中的重要里程碑。它不仅展示了昆仑万维在技术创新和生态建设方面的实力,也为未来的商业化应用和市场拓展奠定了坚实基础。然而,面对业绩压力和市场竞争的挑战,昆仑万维需要持续进行技术创新和迭代升级,以保持其在AIGC领域的领先地位。(文/宋雨涵)