延迟优化选项加持，Amazon Bedrock的推理速度比别人都快-DOIT-数据产业媒体与服务平台

2024年的re:Invent大会上，亚马逊云科技发布了针对Amazon Bedrock的更新，Amazon Bedrock现在可以让基础模型的推理延迟降低，这一个叫推理延迟优化选项的功能，目前已进入公开预览阶段。

目前，该功能支持Anthropic的最火的Claude 3.5 Haiku，还有Llama 3.1 405B和70B两个模型，它可以在不牺牲准确性的前提下降低延迟。

在延迟优化推理功能的加持下，Amazon Bedrock所运行的Claude 3.5 Haiku，比在任何别的地方都快，这一说法被Anthropic所验证。同理，在Amazon Bedrock运行405B和70B的速度也是最快的。

Anthropic是现在仅次于OpenAI的最受关注的大模型公司，其估值达到了约400亿美元。Anthropic目前在写代码上的能力非常突出，在开发者群体中非常火的Cursor用的就是来自Anthropic的Claude。此外，Anthropic开放的控制电脑的功能也备受关注。

Anthropic的人向来比较低调，这次活动上Anthropic的联合创始人兼首席计算官Tom Brown来到了大会现场，Tom Brown此前在OpenAI是负责研究工程负责人，领导了从 1.5B参数扩展到 170B参数的大规模训练基础设施开发，是行业资深专家。

如今生成式AI的各种应用越来越多，用户对AI机器人的快速响应有很高的需求，因此对于像聊天机器人和代码助手这样需要实时互动的场景，优化延迟（减少响应时间）是非常重要的，稍长的等待就可能导致用户流失。为了优化推理相应速度，业内一些厂商也有很多新尝试，有机会详谈。

从亚马逊云科技高级副总裁Peter DeSantis的介绍中了解到， Amazon Bedrock的这项新功能底层使用的是Amazon Trainium2 这样的专用AI芯片。以这块ASIC芯片为中心，亚马逊云科技做了一系列创新，这点在随后的文章中也会提到。

当然，想做到这么快，还得益于Amazon Bedrock 中的一系列软件优化技术。现在，Amazon Bedrock的用户可以获得多种优化推理功能，用户无需额外的设置或模型微调，就可以直接使用这些功能，现有的应用都能立马实现更快的响应速度。

最后，用户现在就可以在美国东部（俄亥俄）区域使用Amazon Bedrock的低延迟推理功能。

延迟优化选项加持，Amazon Bedrock的推理速度比别人都快