Claude 3.5 Sonnet升级版：最会写代码的AI模型又变强了-DOIT-数据产业媒体与服务平台

昨晚我们大部分人睡觉的时候，Anthropic偷偷升级了中杯的Claude 3.5 Sonnet，同时发布了小杯的Claude 3.5 Haiku。

其中，升级后的Claude 3.5 Sonnet在多个方面都有改进，特别是在编程能力上有显著提升，而编程是它原本就非常强的领域，强的可怕的那种。

前几天8岁小女孩开发Web程序的新闻刷屏了吧，她用的就是Cursor，Cursor用的就是旧版本的Claude 3.5 Sonnet，现在这模型又变强了！

另外，全新推出的Claude 3.5 Haiku在很多评估中表现也都更强了，性能与之前大杯的Claude 3 Opus相当，不仅API价格保持不变，速度与之前的版本还相似。

AI也能玩电脑了

这次更新，Anthropic还介绍了一个处于测试阶段的新功能——让模型操控电脑，一觉醒来，大模型也会玩电脑了。

Claude现在可以通过学习电脑技能来使用工具和软件，而不用为每个任务设计特定工具。这项新功能可以自动化重复的流程、构建和测试软件，甚至执行一些开放性任务。

看到这里，我瞬间想回到了各种外挂，还有刷单刷数据的公司。为了避免这一功能被滥用，Anthropic的团队也会采取安全措施，包括新开发的分类器来检测这些风险。

目前该功能已通过API向开发者开放，开发者可以将该API集成到系统中，Claude便能将用户的指令转化为实际的命令，如查看电子表格、打开浏览器、导航到相关页面、点击按钮、填写表格等。

Claude 3.5 Sonnet是第一个在公开测试版中提供这种电脑操作功能的AI模型。目前还处于实验阶段，使用时容易出错，在进行滚动、拖动、缩放等方面仍有挑战。

Anthropic还表示，目前，Asana、Canva、Cognition、Replit等公司已经开始探索Claude 3.5 Sonnet的新功能，特别是在电脑操作和用户界面导航方面。这些公司正在使用该功能完成需要几十甚至上百步的复杂任务。

开发者现在就可以通过Anthropic API、Amazon Bedrock 和 Google Cloud的Vertex AI使用电脑操作功能。

Claude 3.5 Sonnet: 多个行业表现突出，编程能力再次显著提升

经测试，Claude 3.5 Sonnet在多个行业基准测试中表现都非常优异，尤其在编程能力和工具使用任务方面取得了显著提升。

在SWE-bench Verified测试中，编程表现从33.4%提升至49.0%，超过了包括OpenAI o1-preview等推理模型和专门为编程设计的系统。

在TAU-bench的工具使用任务中，其在零售领域的得分从62.6%提升到69.2%，而在更具挑战性的航空领域，得分从36.0%提升至46.0%。

跑分仅供参考，早期客户反馈表明，新版Claude 3.5 Sonnet在AI驱动的编程方面确实有显著飞跃。

GitLab在测试中发现，该模型在DevSecOps任务中的推理能力增强了约10%，并且没有增加延迟，适合用于多步骤的软件开发流程。

Cognition使用它进行自主AI评估，发现其在编程、规划和问题解决方面的表现相比上一版本有了显著提升。

The Browser Company在测试用于自动化网页工作流程时，发现Claude 3.5 Sonnet的表现优于他们之前测试过的所有模型。

安全性方面，Claude 3.5 Sonnet也表现良好，该模型还经过了灾难性风险评估，符合公司“负责任扩展政策”中的ASL-2标准。

更了不起的是，Claude 3.5 Sonnet升级版在变强的同时，价格和响应速度方面也都跟之前一样。

Claude 3.5 Sonnet升级版现已对所有用户开放。

Claude 3.5 Haiku，现在的小杯相当于此前的大杯

Claude的模型中，Opus是最大的，Sonnet是中间档，Haiku是最小的，也是最快的，与此前的Claude 3 Haiku相比，它价格不变且速度相似，但各方面都有提升。

Claude 3.5 Haiku在智能基准测试中表现优于Claude 3 Opus，这可是上一代的大杯啊。

而且，Claude 3.5 Haiku在编程任务方面表现也很强，在SWE-bench Verified测试中得分为40.6%，超过了包括旧版本的Claude 3.5 Sonnet和GPT-4o等模型。

而且，Claude 3.5 Haiku具有低延迟、改进的指令执行能力和更准确的工具使用能力，特别适合用于面向用户的产品、子代理任务以及从大量数据（如购买历史、定价和库存记录）中生成个性化体验。

该模型将在本月晚些时候发布，支持通过API、Amazon Bedrock和Google Cloud的Vertex AI使用，初期只支持文本输入，后续将增加图像输入功能。

Claude 3.5 Sonnet升级版：最会写代码的AI模型又变强了