Amazon Bedrock 支持的终端节点

Amazon Bedrock 支持用于执行推理操作的各种终端节点。

推理操作

Amazon Bedrock 支持以下两个主要端点，用于以编程方式执行推理：

Endpoint	支持的 API	描述
`bedrock-mantle.{region}.api.aws`	响应 API/聊天完成 API/消息 API	Region-specific 终端节点，用于使用终 OpenAI-compatible 端节点和 Anthropic Messages API 对托管在 Amazon Bedrock 中的模型发出推理请求。
`bedrock-runtime.{region}.amazonaws.com`	InvokeModel /Converse/聊天完成/消息 AP I	Region-specific 用于使用 API 对托管在 Amazon Bedrock 中的模型发出推理请求的 InvokeModel/Converse/Chat Completions/Messages 终端节点。在此处阅读有关 Amazon Bedrock 运行时 API 的更多信息。

对于新应用程序，我们建议使用bedrock-mantle终端节点。它支持 OpenAI-compatible API（回复和聊天完成）和 Anthropic Messages API，包括内置工具使用和状态对话管理，并且允许您仅通过更改基本 URL 和 API 密钥将现有的 OpenAI SDK 代码库引入 Amazon Bedrock。bedrock-runtime终端节点仍然完全受支持，当你使用 Bedrock-native InvokeModel 或 Converse API 或者你想要的模型尚不可用时，端点是正确的选择。bedrock-mantle要查看每个模型支持哪个端点，请参阅各型号的端点可用性。

下表比较了每个端点上的可用内容。

API 支持
API	`bedrock-runtime`	`bedrock-mantle`
InvokeModel
匡威/ ConverseStream
聊天完成次数 () OpenAI-compatible
响应 API (OpenAI-compatible)
消息 API (Anthropic-native)

注意

Messages API 在两个端点上都可用，但这两个界面没有相同的功能支持。特别是，不支持结构化输出（output_config.format参数），包括的bedrock-mantle请求会output_config.format被拒绝，错误为 400。要在 Anthropic Claude 模型中使用结构化输出，请调用 Converse 或 API InvokeModel 。bedrock-runtime

推理能力
能力	`bedrock-runtime`	`bedrock-mantle`
Cross-region 推理（地理和全球概况）
有状态的对话管理
异步（长时间运行）推理
Client-side 工具使用
Server-side 工具使用
Pre-configured 即用型工具
Projects
工作空间

正常运行
Item	`bedrock-runtime`	`bedrock-mantle`
AWS Sigv4 身份验证
Bedrock API 密钥（也适用于 OpenAI SDK）
使用归因	IAM，按请求添加元数据标记	项目、工作空间

基岩功能可用性
功能	`bedrock-runtime`	`bedrock-mantle`
护栏
提示缓存
智能提示路由

注意

是否支持提示缓存bedrock-mantle取决于特定的型号，有关详细信息，请参阅下面的每个型号卡片。模型一览

吞吐量和配额方法

每个端点使用不同的方法来管理吞吐量。

bedrock-runtime— 在许多传统的多租户服务中，该架构是围绕每个账户的配额设计的，以管理对共享资源的公平共享访问权限。这是与使用的方法bedrock-runtime。每个型号都有固定的吞吐量配额（RPM 和 TPM），您可以请求提高这些配额。有关更多信息，请参阅基底运行时端点的配额。
bedrock-mantle— 此端点采用高级调度和工作队列机制架构，可实现公平分配，同时支持更高的初始吞吐量限制。这种设计还bedrock-mantle允许托管各种模型，并提供模型目录中可用的全部功能。在大多数情况下，请求会立即得到满足。在某些情况下，当运行中的工作负载完成且吞吐量可用时，请求可能会短暂排队。有关详细信息，请参阅基岩地幔端点的配额和扩展和吞吐量最佳实践。

定价

Per-token 相同型号的定价与bedrock-runtime和相同bedrock-mantle。根据所需的 API 和功能选择终端节点，而不是成本。有关当前定价，请参阅 Amazon Bedrock 定价。

何时选择每个端点

从你想做的事情开始吧：bedrock-mantle

使用响应 API、聊天完成 API 或消息 API 进行有状态的多回合对话。
只需更改基本 URL 和 API 密钥，即可将现有 OpenAI SDK 代码引入 Amazon Bedrock。
运行异步或长时间运行的推理工作负载。
使用服务器端工具或预先配置的工具来构建代理工作流程。
使用项目 (OpenAI-compatible)或工作空间 () Anthropic-compatible隔离工作负载并在应用程序级别跟踪成本和使用情况。

bedrock-runtime在你想做以下事情时使用：

继续使用 Bedrock-native InvokeModel或匡威 API。
使用尚未上线的模型bedrock-mantle。请参阅各型号的端点可用性。

两个端点可以在同一个应用程序中一起使用——根据用例进行选择。

使用 VPC 接口终端节点降低数据流出成本

如果您在 VPC 内调用 Amazon Bedrock，请考虑使用 VPC 接口终端节点 (AWS PrivateLink) 将流量保持在 AWS 网络内，避免与 NAT 网关或互联网网关相关的数据出站费用。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

构建

API