这两天头条都被谷歌和OpenAI抢了!AI界“双雄”争霸——谷歌版o1突发即屠榜!思考速度比所有模型快5倍

引言

【算力豹导读】谷歌DeepMind的首席科学家Jeff Dean宣布,团队已推出最新测试模型——Gemini 2.0 Flash Thinking,这一模型开创了通用推理领域的新篇章,预示着未来可能与OpenAI的o1推理模型形成竞争格局。

在X平台上发布的一篇文章中,Jeff Dean详细介绍了Gemini 2.0 Flash Thinking。他指出,该模型经过特殊训练,能够通过“思考”来强化其推理能力,并且得益于Gemini Flash 2.0模型的速度优势。他还通过演示展示了模型如何通过一系列有序的“思考”步骤,最终解答物理问题。

值得注意的是,Gemini 2.0 Flash Thinking在推理方式上借鉴了o1模型的慢思维策略,能够深度展示整个思维链条,特别是在解决数学、编程等复杂问题时,能够持续输出完整的推理过程,而非直接给出答案。

此外,Gemini 2.0 Flash Thinking支持多模态推理,现已开放使用。用户可以在Google AI Studio和Vertex AI的Gemini API中体验该模型。

Google近期推出的Gemini 2.0 Flash不仅支持多模式输入,如图像、视频和音频,还具备多模式输出能力,包括结合文本的原生图像生成和可控的文本转语音(TTS)多语言音频。该模型还能原生调用Google搜索等工具,执行代码,并集成第三方用户自定义函数。

更新内容与产品实测

新的Thinking模型是以刚发布的2.0 Flash版本为基础,使用了类似o1模型的慢思维思考方式,可以深度可视化展示整个思维链过程,尤其是在执行数学、编程等复杂问题方面,能持续输出全部推理过程,而不是直接给出答案。

值得一提的是,Thinking是支持多模态推理的。

例如,让Thinking模型解读一道非常复杂的物理题:一个电子被困在一维无限势阱中,其边界位于\(x = -0.15 \) nm 和 \( x = +0.15 \) nm。求当电子在势阱中改变能级时发射出的四个最长波长的光子。

Thinking可以完完整整地展现出所有的推理过程。

也可以让Thinking推理一下图片:如何使用这些数字中的三个,使其相加总和为 30 呢?

思考速度比所有模型快5倍

根据Chatbot Arena LLM Leaderboard最新评测数据显示,Thinking模型在代码、数学、指令遵循、多轮测试等基准测试中,全部排名第一,超过了o1的预览版。

双雄”争霸,谁将胜出

news

一、功能特点

模型功能描述
OpenAI o1系列1. 在回答问题前会进行深入思考,并生成一条内部推理链,使其在尝试解决问题时可以识别并纠正错误。
2. 能够将复杂的步骤分解为更简单的部分,并在当前方法无效时尝试不同的途径。
3. 支持图片输入和高级视觉功能,并附带全新的偏好微调方法。
4. 包括o1-preview、o1和o1-mini三个型号,其中o1-mini是一种更快、更便宜的推理模型,适用于需要推理但不需广泛世界知识的应用。
谷歌Gemini 2.01. 支持32000个输入标记(大约50到60页文本),输出响应可以达到8000个标记。
2. 允许用户通过下拉菜单访问模型的逐步推理过程,增强了透明性,有效解决了AI被视为“黑箱”的问题。
3. 具备原生图像上传与分析功能,支持原生图像和多语言音频输出,以及原生工具使用,能够理解和处理包括文本、图像、视频和音频在内的多种输入类型,并提供相应的输出结果。
4. Flash Thinking模型比基础版本的Gemini 2.0 Flash模型具备更强的推理能力。

二、性能指标

模型性能指标
OpenAI o1系列数学水平与美国奥林匹克竞赛(AIME)前500名的选手相当,在物理、生物和化学领域超过了人类博士的水平。
谷歌Gemini 2.01. 在关键基准测试中,相较于前代Gemini 1.5 Pro性能大幅提升,速度至高提升两倍。
2. 在SWE-bench Verified基准上,Gemini 2.0 Flash表现出色,击败了完整版的o1。
3. 在一些简单测试中,Gemini 2.0能够快速(在一到三秒内)正确回答一些复杂问题。

三、应用前景

模型应用前景描述
OpenAI o1系列适用于多个领域,特别是在需要复杂推理和科学计算的应用场景中展现出强大的能力。
谷歌Gemini 2.01. 基于Gemini 2.0,谷歌推出了一系列AI Agent新品,包括通用大模型助手Project Astra、浏览器助手Project Mariner、编程助手Jules等,进一步拓展了其应用边界。
2. 在智能家居、智能医疗、智能教育等领域具有广泛的应用前景,能够通过多模态交互方式为用户提供更加高效、便捷的服务。

OpenAI的o1系列和谷歌的Gemini 2.0,代表了当前AI发展的两大方向:安全与推理 vs 多模态与实用。它们各有千秋,难分伯仲。

OpenAI的o1系列在逻辑推理、数据安全和算法稳定性方面表现出色,但其应用场景相对有限,主要集中在一些需要高度安全性和准确性的领域。相比之下,谷歌的Gemini 2.0在数据处理能力、实用性和灵活性方面更具优势,能够处理多种数据类型,并快速生成实用的信息和决策。然而,Gemini 2.0在算法安全性和稳定性方面可能存在一定的挑战。

随着AI技术的不断发展,各行各业对AI系统的需求也在不断增加。OpenAI的o1系列在金融、医疗等需要高度安全性和准确性的领域具有广阔的应用前景。而谷歌的Gemini 2.0则在智能客服、智能家居、自动驾驶等需要处理多种数据类型并快速生成决策的场景中具有显著优势。

未来,随着技术的不断进步和应用场景的不断拓展,OpenAI的o1系列和谷歌的Gemini 2.0都将在各自领域取得更大的发展。安全与推理和多模态与实用将不再是相互排斥的关系,而是相互融合、相互促进的关系。未来的AI系统将更加注重算法的稳定性、安全性和实用性,能够处理更加复杂多变的数据和任务。

写在最后

随着人工智能领域的竞争愈演愈烈,Gemini 2.0 Flash Thinking或将引领问题解决模型迈入一个崭新的纪元。它凭借对多元数据类型的卓越处理能力、直观的可视化推理展现,以及大规模的执行效率,在推理人工智能市场中崭露头角,成为一股不可小觑的力量,足以与OpenAI的o1系列等顶尖产品并驾齐驱,一展风采。(文/宋雨涵)