本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon Bedrock 支持的终端节点
Amazon Bedrock 支持用于执行推理操作的各种终端节点。
推理操作
Amazon Bedrock 支持以下两个主要端点,用于以编程方式执行推理:
| Endpoint | 支持的 API | 描述 |
|---|---|---|
bedrock-mantle.{region}.api.aws |
响应 API/聊天完成 API/消息 API | Region-specific 终端节点,用于使用终 OpenAI-compatible 端节点和 Anthropic Messages API 对托管在 Amazon Bedrock 中的模型发出推理请求。 |
bedrock-runtime.{region}.amazonaws.com |
InvokeModel/Converse/聊天完成/消息 AP I | Region-specific 用于使用 API 对托管在 Amazon Bedrock 中的模型发出推理请求的 InvokeModel/Converse/Chat Completions/Messages 终端节点。在此处阅读有关 Amazon Bedrock 运行时 API 的更多信息。 |
对于新应用程序,我们建议使用bedrock-mantle终端节点。它支持 OpenAI-compatible API(回复和聊天完成)和 Anthropic Messages API,包括内置工具使用和状态对话管理,并且允许您仅通过更改基本 URL 和 API 密钥将现有的 OpenAI SDK 代码库引入 Amazon Bedrock。bedrock-runtime终端节点仍然完全受支持,当你使用 Bedrock-native InvokeModel 或 Converse API 或者你想要的模型尚不可用时,端点是正确的选择。bedrock-mantle要查看每个模型支持哪个端点,请参阅各型号的端点可用性。
下表比较了每个端点上的可用内容。
| API | bedrock-runtime |
bedrock-mantle |
|---|---|---|
| InvokeModel | ||
| 匡威/ ConverseStream | ||
| 聊天完成次数 () OpenAI-compatible | ||
| 响应 API (OpenAI-compatible) | ||
| 消息 API (Anthropic-native) |
注意
Messages API 在两个端点上都可用,但这两个界面没有相同的功能支持。特别是,不支持结构化输出(output_config.format参数),包括的bedrock-mantle请求会output_config.format被拒绝,错误为 400。要在 Anthropic Claude 模型中使用结构化输出,请调用 Converse 或 API InvokeModel 。bedrock-runtime
| 能力 | bedrock-runtime |
bedrock-mantle |
|---|---|---|
| Cross-region 推理(地理和全球概况) | ||
| 有状态的对话管理 | ||
| 异步(长时间运行)推理 | ||
| Client-side 工具使用 | ||
| Server-side 工具使用 | ||
| Pre-configured 即用型工具 | ||
| Projects | ||
| 工作空间 |
| Item | bedrock-runtime |
bedrock-mantle |
|---|---|---|
| AWS Sigv4 身份验证 | ||
| Bedrock API 密钥(也适用于 OpenAI SDK) | ||
| 使用归因 | IAM,按请求添加元数据标记 | 项目、工作空间 |
注意
是否支持提示缓存bedrock-mantle取决于特定的型号,有关详细信息,请参阅下面的每个型号卡片。模型一览
吞吐量和配额方法
每个端点使用不同的方法来管理吞吐量。
-
bedrock-runtime— 在许多传统的多租户服务中,该架构是围绕每个账户的配额设计的,以管理对共享资源的公平共享访问权限。这是与使用的方法bedrock-runtime。每个型号都有固定的吞吐量配额(RPM 和 TPM),您可以请求提高这些配额。有关更多信息,请参阅 基底运行时端点的配额。 -
bedrock-mantle— 此端点采用高级调度和工作队列机制架构,可实现公平分配,同时支持更高的初始吞吐量限制。这种设计还bedrock-mantle允许托管各种模型,并提供模型目录中可用的全部功能。在大多数情况下,请求会立即得到满足。在某些情况下,当运行中的工作负载完成且吞吐量可用时,请求可能会短暂排队。有关详细信息,请参阅 基岩地幔端点的配额 和 扩展和吞吐量最佳实践。
定价
Per-token 相同型号的定价与bedrock-runtime和相同bedrock-mantle。根据所需的 API 和功能选择终端节点,而不是成本。有关当前定价,请参阅 Amazon Bedrock 定价
何时选择每个端点
从你想做的事情开始吧:bedrock-mantle
使用响应 API、聊天完成 API 或消息 API 进行有状态的多回合对话。
只需更改基本 URL 和 API 密钥,即可将现有 OpenAI SDK 代码引入 Amazon Bedrock。
运行异步或长时间运行的推理工作负载。
使用服务器端工具或预先配置的工具来构建代理工作流程。
使用项目 (OpenAI-compatible)或工作空间 () Anthropic-compatible隔离工作负载并在应用程序级别跟踪成本和使用情况。
bedrock-runtime在你想做以下事情时使用:
继续使用 Bedrock-native InvokeModel或匡威 API。
使用尚未上线的模型
bedrock-mantle。请参阅各型号的端点可用性。
两个端点可以在同一个应用程序中一起使用——根据用例进行选择。
使用 VPC 接口终端节点降低数据流出成本
如果您在 VPC 内调用 Amazon Bedrock,请考虑使用 VPC 接口终端节点 (AWS PrivateLink) 将流量保持在 AWS 网络内,避免与 NAT 网关或互联网网关相关的数据出站费用。