Tipi di quote Quote di runtime correlate Richiedere un aumento della quota

Quote per l'endpoint bedrock-runtime

L'bedrock-runtime.region.amazonaws.comendpoint è l'endpoint di inferenza principale per Amazon Bedrock. Il traffico di inferenza verso questo endpoint è regolato da quote basate su token per modello. Puoi visualizzare queste quote nella console Service Quotas selezionando Amazon Bedrock come servizio o nella tabella delle quote del servizio Amazon Bedrock nel. Riferimenti generali di AWS

Tipi di quote

L'inferenza sull'bedrock-runtimeendpoint è regolata dalle seguenti quote per modello:

quote base di runtime per modello
Quota	Scope	Description
Cross-Region InvokeModel gettoni al minuto per `${model}`	Per modello, per regione	Il numero massimo di token al minuto (input+output, combinati) che l'account può utilizzare per il modello quando viene richiamato tramite un profilo di inferenza interregionale.
On-demand InvokeModel gettoni al minuto per `${model}`	Per modello, per regione	Il numero massimo di token al minuto (input+output, combinati) che l'account può utilizzare per il modello quando viene richiamato su richiesta in una singola regione.
Numero massimo di token al giorno di invocazione del modello per `${model}`	Per modello, per regione	Il numero massimo di token al giorno (input+output, combinati) che l'account può utilizzare per il modello. Per impostazione predefinita, questo valore è la quota al minuto moltiplicata per 24 × 60. I nuovi Account AWS potrebbero ricevere quote ridotte.
InvokeModel richieste al minuto per `${model}`	Per modello, per regione	Il numero massimo di richieste di inferenza al minuto che il tuo account può inviare per il modello. L'RPM viene applicato per alcuni modelli sull'`bedrock-runtime`endpoint e non per altri; consulta la console Service Quotas per le quote esatte che si applicano al tuo modello.

Le quote TPM dell'bedrock-runtimeendpoint contano i token di input e output insieme rispetto a un'unica quota per modello. L'bedrock-mantleendpoint applica quote separate di token di input al minuto e di token di output al minuto; per i dettagli, vedere. Quote per l'endpoint del substrato roccioso

Nota

Le quote bedrock-runtime RPM sull'endpoint sono specifiche del modello. Alcuni modelli, ad esempio Anthropic Claude Opus 4.7 e Claude Opus 4.8, non hanno una quota RPM e sono regolati esclusivamente dalle quote basate su token descritte in questa sezione. Per i modelli che dispongono di una quota RPM, visualizza il valore esatto nella console Service Quotas.

I token di output vengono convertiti in utilizzo delle quote tramite un tasso di burndown specifico del modello. Per i dettagli su come vengono calcolate le quote basate sui token e su come il parametro di richiesta influisce sulle detrazioni, vedere. max_tokens Come vengono conteggiati i token in Amazon Bedrock

Quote di runtime correlate

Le seguenti funzionalità di Amazon Bedrock vengono servite tramite l'bedrock-runtimeendpoint e hanno quote separate:

Profili di inferenza personalizzati: profili di Application-defined inferenza che racchiudono un modello sottostante. Per informazioni, consulta Configurare una risorsa di invocazione del modello utilizzando i profili di inferenza.
Inferenza in batch: lavori di inferenza asincroni di grandi volumi. Per informazioni, consulta Elaborazione di più prompt con l’inferenza in batch.
Provisioned Throughput: capacità riservata per unità modello. Per informazioni, consulta Aumenta la capacità di invocazione del modello con Provisioned Throughput in Amazon Bedrock.

Queste quote si applicano solo all'bedrock-runtimeendpoint e non sono esposte sull'endpoint. bedrock-mantle

Richiedere un aumento della quota

I passaggi per richiedere un aumento della quota per il tuo account dipendono dal valore nella colonna Regolabile nella tabella delle quote nelle quote dei servizi Amazon Bedrock.

Importante

Prima di richiedere un aumento della quota, verifica che il modello non abbia lo stato del ciclo di vita Legacy o Deprecato. Gli aumenti delle quote non sono concessi per i modelli il cui ritiro è previsto. Controlla lo stato del ciclo di vita del modello sulla Ciclo di vita del modello pagina e valuta invece la possibilità di migrare al modello successivo.

Se una quota è contrassegnata con Sì, puoi modificarla seguendo la procedura riportata nella sezione Richiesta di aumento delle quote nella Guida per l’utente di Service Quotas.
Per qualsiasi modello, puoi richiedere un aumento per le quote seguenti:
- Cross-Region InvokeModel gettoni al minuto per ${model}
- On-demand InvokeModel gettoni al minuto per ${model}
- Richiamata del modello (numero massimo di token al giorno) per ${model}
Per richiedere un aumento per qualsiasi combinazione di queste quote, richiedi un aumento dei Cross-Region InvokeModel token al minuto per la ${model} quota seguendo i passaggi riportati in Richiesta di aumento della quota nella Guida per l'utente delle quote di servizio. Dopo averlo fatto, il team di supporto ti contatterà e ti offrirà la possibilità di aumentare anche le altre due quote.

Nota
A causa dell’enorme domanda, verrà data priorità ai clienti che generano traffico che utilizza la loro assegnazione di quote esistenti. La tua richiesta potrebbe essere rifiutata se non soddisfi questa condizione.

Per gli aumenti bedrock-mantle delle quote, consultaRichiedere un aumento della quota.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

CountTokens API

quote tra il substrato roccioso e il mantello