View a markdown version of this page

Amazon Bedrock 支持的终端节点 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Bedrock 支持的终端节点

Amazon Bedrock 支持用于执行推理操作的各种终端节点。

推理操作

Amazon Bedrock 支持以下两个主要端点,用于以编程方式执行推理:

Endpoint 支持的 API 描述
bedrock-mantle.{region}.api.aws 响应 API/聊天完成 API/消息 API Region-specific 终端节点,用于使用终 OpenAI-compatible 端节点和 Anthropic Messages API 对托管在 Amazon Bedrock 中的模型发出推理请求。
bedrock-runtime.{region}.amazonaws.com InvokeModel/Converse/聊天完成/消息 AP I Region-specific 用于使用 API 对托管在 Amazon Bedrock 中的模型发出推理请求的 InvokeModel/Converse/Chat Completions/Messages 终端节点。在此处阅读有关 Amazon Bedrock 运行时 API 的更多信息

对于新应用程序,我们建议使用bedrock-mantle终端节点。它支持 OpenAI-compatible API(回复和聊天完成)和 Anthropic Messages API,包括内置工具使用和状态对话管理,并且允许您仅通过更改基本 URL 和 API 密钥将现有的 OpenAI SDK 代码库引入 Amazon Bedrock。bedrock-runtime终端节点仍然完全受支持,当你使用 Bedrock-native InvokeModel 或 Converse API 或者你想要的模型尚不可用时,端点是正确的选择。bedrock-mantle要查看每个模型支持哪个端点,请参阅各型号的端点可用性

下表比较了每个端点上的可用内容。

注意

Messages API 在两个端点上都可用,但这两个界面没有相同的功能支持。特别是,不支持结构化输出output_config.format参数),包括的bedrock-mantle请求会output_config.format被拒绝,错误为 400。要在 Anthropic Claude 模型中使用结构化输出,请调用 Converse 或 API InvokeModel 。bedrock-runtime

基岩功能可用性
功能 bedrock-runtime bedrock-mantle
护栏
提示缓存
智能提示路由
注意

是否支持提示缓存bedrock-mantle取决于特定的型号,有关详细信息,请参阅下面的每个型号卡片。模型一览

吞吐量和配额方法

每个端点使用不同的方法来管理吞吐量。

  • bedrock-runtime— 在许多传统的多租户服务中,该架构是围绕每个账户的配额设计的,以管理对共享资源的公平共享访问权限。这是与使用的方法bedrock-runtime。每个型号都有固定的吞吐量配额(RPM 和 TPM),您可以请求提高这些配额。有关更多信息,请参阅 基底运行时端点的配额

  • bedrock-mantle— 此端点采用高级调度和工作队列机制架构,可实现公平分配,同时支持更高的初始吞吐量限制。这种设计还bedrock-mantle允许托管各种模型,并提供模型目录中可用的全部功能。在大多数情况下,请求会立即得到满足。在某些情况下,当运行中的工作负载完成且吞吐量可用时,请求可能会短暂排队。有关详细信息,请参阅 基岩地幔端点的配额扩展和吞吐量最佳实践

定价

Per-token 相同型号的定价与bedrock-runtime和相同bedrock-mantle。根据所需的 API 和功能选择终端节点,而不是成本。有关当前定价,请参阅 Amazon Bedrock 定价

何时选择每个端点

从你想做的事情开始吧:bedrock-mantle

  • 使用响应 API、聊天完成 API 或消息 API 进行有状态的多回合对话。

  • 只需更改基本 URL 和 API 密钥,即可将现有 OpenAI SDK 代码引入 Amazon Bedrock。

  • 运行异步或长时间运行的推理工作负载。

  • 使用服务器端工具或预先配置的工具来构建代理工作流程。

  • 使用项目 (OpenAI-compatible)工作空间 () Anthropic-compatible隔离工作负载并在应用程序级别跟踪成本和使用情况。

bedrock-runtime在你想做以下事情时使用:

两个端点可以在同一个应用程序中一起使用——根据用例进行选择。

使用 VPC 接口终端节点降低数据流出成本

如果您在 VPC 内调用 Amazon Bedrock,请考虑使用 VPC 接口终端节点 (AWS PrivateLink) 将流量保持在 AWS 网络内,避免与 NAT 网关或互联网网关相关的数据出站费用。