OpenAI新模型推理能力暴增,更像是一位理科学霸

随着最近Claude和基于Claude的Cursor越来越受青睐,OpenAI终于按耐不住发新模型了,而且,宣布的时候马上向部分用户开放了模型,看来也是感受到压力了。

2024年9月13日凌晨前后,OpenAI正式发布了全新的AI模型系列——OpenAI o1,该系列专为解决复杂问题而设计,具备更强的推理能力,尤其在科学、编程和数学领域表现出色。

此次发布的首个版本已经通过ChatGPT和API开放预览,未来还会定期更新和优化。此外,OpenAI还发布了该系列的轻量版本“o1-mini”,为开发者提供更高效、更具性价比的解决方案。

模型主要特点

OpenAI o1系列模型的独特之处在于,它们会在回答问题之前花费更多时间进行推理和思考,类似于人类的解决问题方式。通过训练,这些模型能够优化自己的思考过程,尝试不同的解决策略,并识别和纠正错误。

在多项测试中,o1系列的下一个版本在物理、化学和生物学等学科的高难度任务中表现出接近博士生的水准,特别是在数学和编程方面表现突出。

在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o仅解决了13%的问题,而o1模型的正确率高达83%。在Codeforces编程竞赛中,o1的表现达到了89%的优秀水平。

此外,OpenAI推出的轻量版本“o1-mini”同样专注于复杂代码的生成和调试。与o1-preview相比,o1-mini的成本降低了80%,因此对于那些需要推理但不依赖广泛世界知识的应用场景,它是一款高效、经济的解决方案。

使用方式?现在就可以用上了

ChatGPT Plus和Team用户从今日起可以在ChatGPT中访问o1系列模型。用户可以在模型选择器中手动选择o1-preview或o1-mini模型。

初期的使用限制为,o1-preview每周30条消息,o1-mini每周50条消息。未来会计划增加使用限制,并让ChatGPT能够自动选择最适合用户问题的模型。

从下周开始,ChatGPT Enterprise和Edu用户也可以使用这两个模型。同时,开发者若达到API使用的第5级别门槛,也可从今天起在API中原型设计并测试这两个模型,初期的API调用限制为每分钟20次请求。

随着进一步的测试,OpenAI将逐步提高这一限额。目前API尚不支持函数调用、流式处理和系统消息等功能,开发者可以通过API文档了解更多。

未来,OpenAI还计划将o1-mini的使用权向所有ChatGPT免费用户开放。

安全保障方面

为了确保新模型的安全性,OpenAI引入了一种新的安全训练方法。

在测试中,o1-preview在应对“越狱”时表现优异,得分为84分(满分100分),远高于GPT-4o的22分。

未来计划

此次发布的o1系列仍处于预览阶段,未来OpenAI计划为这些推理模型添加更多功能,如浏览网页、上传文件和图片等,以提高其通用性。

通过此次推出的o1和o1-mini模型,OpenAI为科学、编程和数学等复杂领域的专业人士提供了更强大的工具,推动了AI在解决复杂问题方面的进步。