延迟优化选项加持,Amazon Bedrock的推理速度比别人都快

2024年的re:Invent大会上,亚马逊云科技发布了针对Amazon Bedrock的更新,Amazon Bedrock现在可以让基础模型的推理延迟降低,这一个叫推理延迟优化选项的功能,目前已进入公开预览阶段。

目前,该功能支持Anthropic的最火的Claude 3.5 Haiku,还有Llama 3.1 405B和70B两个模型,它可以在不牺牲准确性的前提下降低延迟。

在延迟优化推理功能的加持下,Amazon Bedrock所运行的Claude 3.5 Haiku,比在任何别的地方都快,这一说法被Anthropic所验证。同理,在Amazon Bedrock运行405B和70B的速度也是最快的。

Anthropic是现在仅次于OpenAI的最受关注的大模型公司,其估值达到了约400亿美元。Anthropic目前在写代码上的能力非常突出,在开发者群体中非常火的Cursor用的就是来自Anthropic的Claude。此外,Anthropic开放的控制电脑的功能也备受关注。

Anthropic的人向来比较低调,这次活动上Anthropic的联合创始人兼首席计算官Tom Brown来到了大会现场,Tom Brown此前在OpenAI是负责研究工程负责人,领导了从 1.5B参数扩展到 170B参数的大规模训练基础设施开发,是行业资深专家。

如今生成式AI的各种应用越来越多,用户对AI机器人的快速响应有很高的需求,因此对于像聊天机器人和代码助手这样需要实时互动的场景,优化延迟(减少响应时间)是非常重要的,稍长的等待就可能导致用户流失。为了优化推理相应速度,业内一些厂商也有很多新尝试,有机会详谈。

从亚马逊云科技高级副总裁Peter DeSantis的介绍中了解到, Amazon Bedrock的这项新功能底层使用的是Amazon Trainium2 这样的专用AI芯片。以这块ASIC芯片为中心,亚马逊云科技做了一系列创新,这点在随后的文章中也会提到。

当然,想做到这么快,还得益于Amazon Bedrock 中的一系列软件优化技术。现在,Amazon Bedrock的用户可以获得多种优化推理功能,用户无需额外的设置或模型微调,就可以直接使用这些功能,现有的应用都能立马实现更快的响应速度。

最后,用户现在就可以在美国东部(俄亥俄)区域使用Amazon Bedrock的低延迟推理功能。