View a markdown version of this page

Amazon Bedrock 支援的端點 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon Bedrock 支援的端點

Amazon Bedrock 支援執行推論操作的各種端點。

推論操作

Amazon Bedrock 支援下列主要兩個端點,以程式設計方式執行推論:

端點 支援的 APIs Description
bedrock-mantle.{region}.api.aws 回應 API/聊天完成 API/訊息 API 區域特定的端點,用於使用 OpenAI 相容端點和 Anthropic Messages API,對 Amazon Bedrock 中託管的模型進行推論請求。
bedrock-runtime.{region}.amazonaws.com InvokeModel/Converse/聊天完成/訊息 API 區域特定的端點,用於使用 InvokeModel/Converse/Chat Completions/Messages APIs,對 Amazon Bedrock 中託管的模型進行推論請求。在此處閱讀有關 Amazon Bedrock 執行期 APIs的詳細資訊。

對於新應用程式,我們建議使用 bedrock-mantle端點。它支援與 OpenAI 相容的 APIs (回應和聊天完成) 和 Anthropic Messages API,包括內建工具使用和有狀態的對話管理,並可讓您只變更基本 URL 和 API 金鑰,將現有的 OpenAI SDK 程式碼庫帶到 Amazon Bedrock。當您使用 Bedrock 原生 InvokeModel 或 Converse APIs,或您想要的模型尚未在 上提供時,bedrock-runtime端點仍然受到完全支援,是正確的選擇bedrock-mantle。若要查看每個模型支援的端點,請參閱 依模型的端點可用性

下表比較每個端點上可用的項目。

注意

訊息 API 可在兩個端點上使用,但兩個表面沒有相同的功能支援。尤其不支援 上的結構化輸出 ( output_config.format 參數) bedrock-mantle- 包含 的請求output_config.format會遭到 400 錯誤的拒絕。若要搭配 Anthropic Claude 模型使用結構化輸出,請呼叫 上的 Converse 或 InvokeModel APIsbedrock-runtime

可運作
項目 bedrock-runtime bedrock-mantle
AWS SigV4 身分驗證
Bedrock API 金鑰 (也適用於 OpenAI SDK)
用量屬性 IAM每個請求中繼資料標記 專案工作區
Bedrock 功能可用性
功能 bedrock-runtime bedrock-mantle
護欄
提示快取
智慧提示路由
注意

上的提示快取支援bedrock-mantle取決於特定模型 — 模型一目了然 如需詳細資訊,請參閱下的每個模型卡。

輸送量和配額方法

每個端點使用不同的方法來管理輸送量。

  • bedrock-runtime – 在許多傳統的多租用戶服務中,架構的設計是以每個帳戶配額為中心,以管理共用資源的公平共用存取。這是與 搭配使用的方法bedrock-runtime。每個模型都有您可以請求增加的固定輸送量配額 (RPM 和 TPM)。如需詳細資訊,請參閱bedrock-runtime 端點的配額

  • bedrock-mantle – 此端點的架構具有進階排程和工作佇列機制,可提供公平共用分佈,同時支援更高的初始輸送量限制。此設計也允許 bedrock-mantle託管廣泛的模型,並提供模型目錄中可用的完整功能範圍。在大多數情況下,會立即提供請求。在某些情況下,當傳輸中的工作負載完成且輸送量變為可用時,請求可能會短暫排入佇列。如需詳細資訊,請參閱 bedrock-mantle 端點的配額擴展和輸送量最佳實務

定價

bedrock-runtime 和 上相同模型的每個字符定價相同bedrock-mantle。根據您需要APIs 和功能選擇端點,而不是成本。如需目前定價,請參閱 Amazon Bedrock 定價

選擇每個端點的時機

當您想要執行下列動作bedrock-mantle時,請從 開始:

  • 使用回應 API、聊天完成 API 或訊息 API 搭配有狀態的多轉對話。

  • 僅變更基本 URL 和 API 金鑰,將現有的 OpenAI SDK 程式碼帶入 Amazon Bedrock。

  • 執行非同步或長時間執行的推論工作負載。

  • 使用伺服器端工具使用或預先設定的工具建置代理工作流程。

  • 使用 專案 (OpenAI 相容)Workspaces (Anthropic 相容) 隔離工作負載,並在應用程式層級追蹤成本和用量。

當您bedrock-runtime想要:

兩個端點都可以從相同的應用程式一起使用 - 每個使用案例選擇 。

使用 VPC 介面端點降低資料輸出成本

如果您是從 VPC 內呼叫 Amazon Bedrock,請考慮使用 VPC 介面端點 (AWS PrivateLink) 來保留 AWS 網路內的流量,並避免與 NAT 閘道或網際網路閘道相關聯的資料輸出費用。