Endpoint supportati da Amazon Bedrock

Amazon Bedrock supporta vari endpoint per l'esecuzione di operazioni di inferenza.

Operazioni di inferenza

Amazon Bedrock supporta i seguenti due endpoint primari per eseguire l'inferenza a livello di codice:

Endpoint	API supportate	Descrizione
`bedrock-mantle.{region}.api.aws`	API di risposte/API di completamento della chat/API dei messaggi	Region-specific endpoint per effettuare richieste di inferenza per modelli ospitati in Amazon Bedrock utilizzando gli OpenAI-compatible endpoint e l'API Anthropic Messages.
`bedrock-runtime.{region}.amazonaws.com`	InvokeModel /Converse//Chat Completions//API Messages	Region-specific endpoint per effettuare richieste di inferenza per modelli ospitati in Amazon Bedrock utilizzando le API. InvokeModel/Converse/Chat Completions/Messages Scopri di più sulle API Amazon Bedrock Runtime qui.

Per le nuove applicazioni, consigliamo l'bedrock-mantleendpoint. Supporta le OpenAI-compatible API (risposte e completamento delle chat) e l'API Anthropic Messages, include l'uso di strumenti integrati e la gestione delle conversazioni con stato e consente di portare una base di codice SDK OpenAI esistente in Amazon Bedrock modificando solo l'URL di base e la chiave API. L'bedrock-runtimeendpoint rimane completamente supportato ed è la scelta giusta quando utilizzi le API Bedrock-native InvokeModel o Converse o quando il modello che desideri non è ancora disponibile. bedrock-mantle Per vedere quale endpoint supporta ciascun modello, consulta. Disponibilità degli endpoint per modello

Le tabelle seguenti confrontano ciò che è disponibile su ciascun endpoint.

Supporto API
"Hello, World!"	`bedrock-runtime`	`bedrock-mantle`
InvokeModel
Converse/ ConverseStream
Completamenti della chat () OpenAI-compatible
API di risposta () OpenAI-compatible
API dei messaggi (Anthropic-native)

Nota

L'API Messages è disponibile su entrambi gli endpoint, ma le due superfici non supportano funzionalità identiche. In particolare, gli output strutturati (il output_config.format parametro) non sono supportatibedrock-mantle: le richieste che includono output_config.format vengono rifiutate con un errore 400. Per utilizzare output strutturati con i modelli Anthropic Claude, chiama Converse o le API. InvokeModel bedrock-runtime

Funzionalità di inferenza
Funzionalità	`bedrock-runtime`	`bedrock-mantle`
Cross-region inferenza (profili geografici e globali)
Gestione delle conversazioni con Stateful
Inferenza asincrona (di lunga durata)
Client-side uso dello strumento
Server-side uso dello strumento
Pre-configured strumenti pronti all'uso
Progetti
Spazi di lavoro

Operational
Elemento	`bedrock-runtime`	`bedrock-mantle`
Autenticazione AWS SigV4
Chiave API Bedrock (funziona anche con OpenAI SDK)
Attribuzione dell'utilizzo	IAM, etichettatura dei metadati per richiesta	Progetti , spazi di lavoro

Disponibilità delle funzionalità di base
Funzionalità	`bedrock-runtime`	`bedrock-mantle`
Guardrail
Memorizzazione rapida nella cache
Routing intelligente dei prompt

Nota

Il supporto per la memorizzazione rapida nella cache bedrock-mantle dipende dal modello specifico: per ulteriori dettagli, consulta la scheda di ciascun modello riportata di seguito. I modelli a colpo d'occhio

Produttività e approccio basato sulle quote

Ogni endpoint utilizza un approccio diverso alla gestione del throughput.

bedrock-runtime— In molti servizi multi-tenant tradizionali, l'architettura è progettata in base a quote per account per gestire l'accesso equo alle risorse condivise. Questo è l'approccio utilizzato con. bedrock-runtime Ogni modello ha quote di throughput fisse (RPM e TPM) per le quali è possibile richiedere aumenti. Per informazioni dettagliate, vedi Quote per l'endpoint bedrock-runtime.
bedrock-mantle— Questo endpoint è progettato con meccanismi avanzati di pianificazione e gestione delle code di lavoro che garantiscono una distribuzione equa, supportando al contempo limiti di throughput iniziale più elevati. Questo design consente inoltre di ospitare un'ampia gamma bedrock-mantle di modelli e di offrire l'intera gamma di funzionalità disponibili nel catalogo dei modelli. Nella maggior parte dei casi, le richieste vengono evase immediatamente. In alcuni casi, una richiesta può essere messa in coda per un breve periodo durante il completamento dei carichi di lavoro in volo e la velocità effettiva diventa disponibile. Per informazioni dettagliate, consulta Quote per l'endpoint del substrato roccioso e Migliori pratiche di scalabilità e velocità di trasmissione.

Prezzi

Per-token i prezzi per lo stesso modello sono identici in and. bedrock-runtime bedrock-mantle Scegli un endpoint in base alle API e alle funzionalità di cui hai bisogno, non in base ai costi. Per i prezzi correnti, consulta i prezzi di Amazon Bedrock.

Quando scegliere ciascun endpoint

Inizia con bedrock-mantle quando vuoi:

Usa l'API Responses, l'API Chat Completions o l'API Messages con conversazioni a più turni con stato.
Importa il codice SDK OpenAI esistente su Amazon Bedrock modificando solo l'URL di base e la chiave API.
Esegui carichi di lavoro di inferenza asincroni o di lunga durata.
Crea flussi di lavoro agentici con l'uso di strumenti lato server o strumenti preconfigurati.
Utilizza Progetti (OpenAI-compatible) o Spazi di lavoro () Anthropic-compatible per isolare i carichi di lavoro e tenere traccia dei costi e dell'utilizzo a livello di applicazione.

Usalo bedrock-runtime quando vuoi:

Continua a utilizzare le Bedrock-native InvokeModelnostre API Converse.
Usa un modello che non è ancora disponibile su. bedrock-mantle Per informazioni, consulta Disponibilità degli endpoint per modello.

Entrambi gli endpoint possono essere utilizzati insieme dalla stessa applicazione: scegli per caso d'uso.

Riduci i costi di uscita dei dati con gli endpoint dell'interfaccia VPC

Se chiami Amazon Bedrock dall'interno di un VPC, prendi in considerazione l'utilizzo degli endpoint di interfaccia VPC (AWS) per mantenere il traffico all'interno della rete PrivateLink AWS ed evitare i costi di uscita dei dati associati ai gateway NAT o ai gateway Internet.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Creazione

API