本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon Bedrock 支援的端點
Amazon Bedrock 支援執行推論操作的各種端點。
推論操作
Amazon Bedrock 支援下列主要兩個端點,以程式設計方式執行推論:
| 端點 | 支援的 APIs | Description |
|---|---|---|
bedrock-mantle.{region}.api.aws |
回應 API/聊天完成 API/訊息 API | 區域特定的端點,用於使用 OpenAI 相容端點和 Anthropic Messages API,對 Amazon Bedrock 中託管的模型進行推論請求。 |
bedrock-runtime.{region}.amazonaws.com |
InvokeModel/Converse/聊天完成/訊息 API | 區域特定的端點,用於使用 InvokeModel/Converse/Chat Completions/Messages APIs,對 Amazon Bedrock 中託管的模型進行推論請求。在此處閱讀有關 Amazon Bedrock 執行期 APIs的詳細資訊。 |
對於新應用程式,我們建議使用 bedrock-mantle端點。它支援與 OpenAI 相容的 APIs (回應和聊天完成) 和 Anthropic Messages API,包括內建工具使用和有狀態的對話管理,並可讓您只變更基本 URL 和 API 金鑰,將現有的 OpenAI SDK 程式碼庫帶到 Amazon Bedrock。當您使用 Bedrock 原生 InvokeModel 或 Converse APIs,或您想要的模型尚未在 上提供時,bedrock-runtime端點仍然受到完全支援,是正確的選擇bedrock-mantle。若要查看每個模型支援的端點,請參閱 依模型的端點可用性。
下表比較每個端點上可用的項目。
| API | bedrock-runtime |
bedrock-mantle |
|---|---|---|
| InvokeModel | ||
| Converse / ConverseStream | ||
| 聊天完成 (OpenAI 相容) | ||
| 回應 API (OpenAI 相容) | ||
| 訊息 API (Anthropic-native) |
注意
訊息 API 可在兩個端點上使用,但兩個表面沒有相同的功能支援。尤其不支援 上的結構化輸出 ( output_config.format 參數) bedrock-mantle- 包含 的請求output_config.format會遭到 400 錯誤的拒絕。若要搭配 Anthropic Claude 模型使用結構化輸出,請呼叫 上的 Converse 或 InvokeModel APIsbedrock-runtime。
| 功能 | bedrock-runtime |
bedrock-mantle |
|---|---|---|
| 跨區域推論 (地理和全域設定檔) | ||
| 具狀態的對話管理 | ||
| 非同步 (長時間執行) 推論 | ||
| 用戶端工具使用 | ||
| 伺服器端工具使用 | ||
| 預先設定的ready-to-use工具 | ||
| 專案 | ||
| 工作區 |
| 項目 | bedrock-runtime |
bedrock-mantle |
|---|---|---|
| AWS SigV4 身分驗證 | ||
| Bedrock API 金鑰 (也適用於 OpenAI SDK) | ||
| 用量屬性 | IAM,每個請求中繼資料標記 | 專案、工作區 |
注意
上的提示快取支援bedrock-mantle取決於特定模型 — 模型一目了然 如需詳細資訊,請參閱下的每個模型卡。
輸送量和配額方法
每個端點使用不同的方法來管理輸送量。
-
bedrock-runtime– 在許多傳統的多租用戶服務中,架構的設計是以每個帳戶配額為中心,以管理共用資源的公平共用存取。這是與 搭配使用的方法bedrock-runtime。每個模型都有您可以請求增加的固定輸送量配額 (RPM 和 TPM)。如需詳細資訊,請參閱bedrock-runtime 端點的配額。 -
bedrock-mantle– 此端點的架構具有進階排程和工作佇列機制,可提供公平共用分佈,同時支援更高的初始輸送量限制。此設計也允許bedrock-mantle託管廣泛的模型,並提供模型目錄中可用的完整功能範圍。在大多數情況下,會立即提供請求。在某些情況下,當傳輸中的工作負載完成且輸送量變為可用時,請求可能會短暫排入佇列。如需詳細資訊,請參閱 bedrock-mantle 端點的配額 和 擴展和輸送量最佳實務。
定價
bedrock-runtime 和 上相同模型的每個字符定價相同bedrock-mantle。根據您需要APIs 和功能選擇端點,而不是成本。如需目前定價,請參閱 Amazon Bedrock 定價
選擇每個端點的時機
當您想要執行下列動作bedrock-mantle時,請從 開始:
使用回應 API、聊天完成 API 或訊息 API 搭配有狀態的多轉對話。
僅變更基本 URL 和 API 金鑰,將現有的 OpenAI SDK 程式碼帶入 Amazon Bedrock。
執行非同步或長時間執行的推論工作負載。
使用伺服器端工具使用或預先設定的工具建置代理工作流程。
使用 專案 (OpenAI 相容)或 Workspaces (Anthropic 相容) 隔離工作負載,並在應用程式層級追蹤成本和用量。
當您bedrock-runtime想要:
繼續使用 Bedrock 原生 InvokeModel 或 Converse APIs。
使用尚未在 上使用的模型
bedrock-mantle。請參閱 依模型的端點可用性。
兩個端點都可以從相同的應用程式一起使用 - 每個使用案例選擇 。
使用 VPC 介面端點降低資料輸出成本
如果您是從 VPC 內呼叫 Amazon Bedrock,請考慮使用 VPC 介面端點 (AWS PrivateLink) 來保留 AWS 網路內的流量,並避免與 NAT 閘道或網際網路閘道相關聯的資料輸出費用。