View a markdown version of this page

Endpoints pris en charge par Amazon Bedrock - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Endpoints pris en charge par Amazon Bedrock

Amazon Bedrock prend en charge différents points de terminaison pour effectuer des opérations d'inférence.

Opérations d'inférence

Amazon Bedrock prend en charge les deux principaux points de terminaison suivants pour effectuer des inférences par programmation :

Point de terminaison API prises en charge Description
bedrock-mantle.{region}.api.aws API de réponses/API de fin de chat/API de messages Region-specific points de terminaison pour effectuer des demandes d'inférence pour les modèles hébergés dans Amazon Bedrock à l'aide des OpenAI-compatible points de terminaison et de l'API Anthropic Messages.
bedrock-runtime.{region}.amazonaws.com InvokeModel/Converse//Achèvement du chat//API de messages Region-specific points de terminaison pour effectuer des demandes d'inférence pour les modèles hébergés dans Amazon Bedrock à l'aide des API. InvokeModel/Converse/Chat Completions/Messages Pour en savoir plus sur les API Amazon Bedrock Runtime, cliquez ici.

Pour les nouvelles applications, nous recommandons le bedrock-mantle point de terminaison. Il prend en charge les OpenAI-compatible API (Responses and Chat Completions) et l'API Anthropic Messages, inclut l'utilisation d'outils intégrés et la gestion dynamique des conversations, et vous permet d'intégrer une base de code du SDK OpenAI existante à Amazon Bedrock en modifiant uniquement l'URL de base et la clé API. Le bedrock-runtime point de terminaison reste entièrement pris en charge et constitue le bon choix lorsque vous utilisez les API Bedrock-native InvokeModel ou Converse, ou lorsque le modèle que vous souhaitez n'est pas encore disponiblebedrock-mantle. Pour connaître le point de terminaison pris en charge par chaque modèle, consultezDisponibilité des terminaux par modèle.

Les tableaux suivants comparent ce qui est disponible sur chaque point de terminaison.

Note

L'API Messages est disponible sur les deux points de terminaison, mais les deux surfaces ne prennent pas en charge les mêmes fonctionnalités. En particulier, les sorties structurées (le output_config.format paramètre) ne sont pas prises en charge sur bedrock-mantle : les demandes qui incluent output_config.format sont rejetées avec une erreur 400. Pour utiliser des sorties structurées avec les modèles Anthropic Claude, appelez Converse ou les InvokeModel API. bedrock-runtime

Fonctionnement
Élément bedrock-runtime bedrock-mantle
Authentification AWS SigV4
Clé API Bedrock (fonctionne également avec le SDK OpenAI)
Attribution d'utilisation IAM, balisage des métadonnées par demande Projets, espaces de travail
Disponibilité des fonctionnalités de Bedrock
Fonctionnalité bedrock-runtime bedrock-mantle
Rambardes
Mise en cache rapide
Routage rapide intelligent
Note

La prise en charge rapide de la mise en cache bedrock-mantle dépend du modèle spécifique. Consultez chaque modèle de carte ci-dessous Les modèles en un coup d'œil pour plus de détails.

Approche fondée sur le débit et les quotas

Chaque point de terminaison utilise une approche différente pour gérer le débit.

  • bedrock-runtime— Dans de nombreux services multilocataires traditionnels, l'architecture est conçue autour de quotas par compte afin de gérer un accès équitable aux ressources partagées. C'est l'approche utilisée avecbedrock-runtime. Chaque modèle dispose de quotas de débit fixes (RPM et TPM) pour lesquels vous pouvez demander des augmentations. Pour en savoir plus, consultez Quotas pour le point de terminaison entre le socle et le temps d'exécution.

  • bedrock-mantle— Ce point de terminaison est conçu avec des mécanismes avancés de planification et de mise en file d'attente qui assurent une distribution équitable tout en supportant des limites de débit initiales plus élevées. Cette conception permet également bedrock-mantle d'héberger un large éventail de modèles et de fournir l'ensemble des fonctionnalités disponibles dans le catalogue de modèles. Dans la plupart des cas, les demandes sont traitées immédiatement. Dans certains cas, une demande peut être brièvement mise en file d'attente pendant que les charges de travail en vol sont terminées et que le débit devient disponible. Pour plus d’informations, consultez Quotas pour la limite entre le substrat rocheux et le manteau et Meilleures pratiques en matière de mise à l'échelle et de débit.

Tarification

Per-token les prix pour le même modèle sont identiques sur bedrock-runtime etbedrock-mantle. Choisissez un point de terminaison en fonction des API et des fonctionnalités dont vous avez besoin, et non en fonction des coûts. Pour connaître les tarifs actuels, consultez les tarifs d'Amazon Bedrock.

Quand choisir chaque point de terminaison

Commencez par le bedrock-mantle moment où vous souhaitez :

  • Utilisez l'API Responses, l'API Chat Completions ou l'API Messages pour des conversations dynamiques à plusieurs tours.

  • Importez le code du SDK OpenAI existant dans Amazon Bedrock en modifiant uniquement l'URL de base et la clé API.

  • Exécutez des charges de travail d'inférence asynchrones ou de longue durée.

  • Créez des flux de travail agentiques en utilisant des outils côté serveur ou des outils préconfigurés.

  • Utilisez Projets (OpenAI-compatible) ou Espaces de travail () Anthropic-compatible pour isoler les charges de travail et suivre les coûts et l'utilisation au niveau de l'application.

À utiliser bedrock-runtime lorsque vous souhaitez :

Les deux points de terminaison peuvent être utilisés ensemble à partir de la même application. Choisissez par cas d'utilisation.

Réduisez les coûts de sortie de données grâce aux points de terminaison d'interface VPC

Si vous appelez Amazon Bedrock depuis un VPC, pensez à utiliser des points de terminaison d'interface VPC (AWS) pour maintenir le trafic au sein du réseau PrivateLink AWS et éviter les frais de sortie de données associés aux passerelles NAT ou aux passerelles Internet.