昨晚我们大部分人睡觉的时候,Anthropic偷偷升级了中杯的Claude 3.5 Sonnet,同时发布了小杯的Claude 3.5 Haiku。
其中,升级后的Claude 3.5 Sonnet在多个方面都有改进,特别是在编程能力上有显著提升,而编程是它原本就非常强的领域,强的可怕的那种。
前几天8岁小女孩开发Web程序的新闻刷屏了吧,她用的就是Cursor,Cursor用的就是旧版本的Claude 3.5 Sonnet,现在这模型又变强了!
另外,全新推出的Claude 3.5 Haiku在很多评估中表现也都更强了,性能与之前大杯的Claude 3 Opus相当,不仅API价格保持不变,速度与之前的版本还相似。
AI也能玩电脑了
这次更新,Anthropic还介绍了一个处于测试阶段的新功能——让模型操控电脑,一觉醒来,大模型也会玩电脑了。
Claude现在可以通过学习电脑技能来使用工具和软件,而不用为每个任务设计特定工具。这项新功能可以自动化重复的流程、构建和测试软件,甚至执行一些开放性任务。
看到这里,我瞬间想回到了各种外挂,还有刷单刷数据的公司。为了避免这一功能被滥用,Anthropic的团队也会采取安全措施,包括新开发的分类器来检测这些风险。
目前该功能已通过API向开发者开放,开发者可以将该API集成到系统中,Claude便能将用户的指令转化为实际的命令,如查看电子表格、打开浏览器、导航到相关页面、点击按钮、填写表格等。
Claude 3.5 Sonnet是第一个在公开测试版中提供这种电脑操作功能的AI模型。目前还处于实验阶段,使用时容易出错,在进行滚动、拖动、缩放等方面仍有挑战。
Anthropic还表示,目前,Asana、Canva、Cognition、Replit等公司已经开始探索Claude 3.5 Sonnet的新功能,特别是在电脑操作和用户界面导航方面。这些公司正在使用该功能完成需要几十甚至上百步的复杂任务。
开发者现在就可以通过Anthropic API、Amazon Bedrock 和 Google Cloud的Vertex AI使用电脑操作功能。
Claude 3.5 Sonnet: 多个行业表现突出,编程能力再次显著提升
经测试,Claude 3.5 Sonnet在多个行业基准测试中表现都非常优异,尤其在编程能力和工具使用任务方面取得了显著提升。
在SWE-bench Verified测试中,编程表现从33.4%提升至49.0%,超过了包括OpenAI o1-preview等推理模型和专门为编程设计的系统。
在TAU-bench的工具使用任务中,其在零售领域的得分从62.6%提升到69.2%,而在更具挑战性的航空领域,得分从36.0%提升至46.0%。
跑分仅供参考,早期客户反馈表明,新版Claude 3.5 Sonnet在AI驱动的编程方面确实有显著飞跃。
GitLab在测试中发现,该模型在DevSecOps任务中的推理能力增强了约10%,并且没有增加延迟,适合用于多步骤的软件开发流程。
Cognition使用它进行自主AI评估,发现其在编程、规划和问题解决方面的表现相比上一版本有了显著提升。
The Browser Company在测试用于自动化网页工作流程时,发现Claude 3.5 Sonnet的表现优于他们之前测试过的所有模型。
安全性方面,Claude 3.5 Sonnet也表现良好,该模型还经过了灾难性风险评估,符合公司“负责任扩展政策”中的ASL-2标准。
更了不起的是,Claude 3.5 Sonnet升级版在变强的同时,价格和响应速度方面也都跟之前一样。
Claude 3.5 Sonnet升级版现已对所有用户开放。
Claude 3.5 Haiku,现在的小杯相当于此前的大杯
Claude的模型中,Opus是最大的,Sonnet是中间档,Haiku是最小的,也是最快的,与此前的Claude 3 Haiku相比,它价格不变且速度相似,但各方面都有提升。
Claude 3.5 Haiku在智能基准测试中表现优于Claude 3 Opus,这可是上一代的大杯啊。
而且,Claude 3.5 Haiku在编程任务方面表现也很强,在SWE-bench Verified测试中得分为40.6%,超过了包括旧版本的Claude 3.5 Sonnet和GPT-4o等模型。
而且,Claude 3.5 Haiku具有低延迟、改进的指令执行能力和更准确的工具使用能力,特别适合用于面向用户的产品、子代理任务以及从大量数据(如购买历史、定价和库存记录)中生成个性化体验。
该模型将在本月晚些时候发布,支持通过API、Amazon Bedrock和Google Cloud的Vertex AI使用,初期只支持文本输入,后续将增加图像输入功能。