Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Endpoints pris en charge par Amazon Bedrock
Amazon Bedrock prend en charge différents points de terminaison pour effectuer des opérations d'inférence.
Opérations d'inférence
Amazon Bedrock prend en charge les deux principaux points de terminaison suivants pour effectuer des inférences par programmation :
| Point de terminaison | API prises en charge | Description |
|---|---|---|
bedrock-mantle.{region}.api.aws |
API de réponses/API de fin de chat/API de messages | Region-specific points de terminaison pour effectuer des demandes d'inférence pour les modèles hébergés dans Amazon Bedrock à l'aide des OpenAI-compatible points de terminaison et de l'API Anthropic Messages. |
bedrock-runtime.{region}.amazonaws.com |
InvokeModel/Converse//Achèvement du chat//API de messages | Region-specific points de terminaison pour effectuer des demandes d'inférence pour les modèles hébergés dans Amazon Bedrock à l'aide des API. InvokeModel/Converse/Chat Completions/Messages Pour en savoir plus sur les API Amazon Bedrock Runtime, cliquez ici. |
Pour les nouvelles applications, nous recommandons le bedrock-mantle point de terminaison. Il prend en charge les OpenAI-compatible API (Responses and Chat Completions) et l'API Anthropic Messages, inclut l'utilisation d'outils intégrés et la gestion dynamique des conversations, et vous permet d'intégrer une base de code du SDK OpenAI existante à Amazon Bedrock en modifiant uniquement l'URL de base et la clé API. Le bedrock-runtime point de terminaison reste entièrement pris en charge et constitue le bon choix lorsque vous utilisez les API Bedrock-native InvokeModel ou Converse, ou lorsque le modèle que vous souhaitez n'est pas encore disponiblebedrock-mantle. Pour connaître le point de terminaison pris en charge par chaque modèle, consultezDisponibilité des terminaux par modèle.
Les tableaux suivants comparent ce qui est disponible sur chaque point de terminaison.
| API | bedrock-runtime |
bedrock-mantle |
|---|---|---|
| InvokeModel | ||
| Converse/ ConverseStream | ||
| Terminaisons de chat () OpenAI-compatible | ||
| API de réponses (OpenAI-compatible) | ||
| API de messages (Anthropic-native) |
Note
L'API Messages est disponible sur les deux points de terminaison, mais les deux surfaces ne prennent pas en charge les mêmes fonctionnalités. En particulier, les sorties structurées (le output_config.format paramètre) ne sont pas prises en charge sur bedrock-mantle : les demandes qui incluent output_config.format sont rejetées avec une erreur 400. Pour utiliser des sorties structurées avec les modèles Anthropic Claude, appelez Converse ou les InvokeModel API. bedrock-runtime
| Capacité | bedrock-runtime |
bedrock-mantle |
|---|---|---|
| Cross-region inférence (profils géographiques et globaux) | ||
| Gestion dynamique des conversations | ||
| Inférence asynchrone (de longue durée) | ||
| Client-side utilisation de l'outil | ||
| Server-side utilisation de l'outil | ||
| Pre-configured outils prêts à l'emploi | ||
| Projets | ||
| Espaces de travail |
| Élément | bedrock-runtime |
bedrock-mantle |
|---|---|---|
| Authentification AWS SigV4 | ||
| Clé API Bedrock (fonctionne également avec le SDK OpenAI) | ||
| Attribution d'utilisation | IAM, balisage des métadonnées par demande | Projets, espaces de travail |
| Fonctionnalité | bedrock-runtime |
bedrock-mantle |
|---|---|---|
| Rambardes | ||
| Mise en cache rapide | ||
| Routage rapide intelligent |
Note
La prise en charge rapide de la mise en cache bedrock-mantle dépend du modèle spécifique. Consultez chaque modèle de carte ci-dessous Les modèles en un coup d'œil pour plus de détails.
Approche fondée sur le débit et les quotas
Chaque point de terminaison utilise une approche différente pour gérer le débit.
-
bedrock-runtime— Dans de nombreux services multilocataires traditionnels, l'architecture est conçue autour de quotas par compte afin de gérer un accès équitable aux ressources partagées. C'est l'approche utilisée avecbedrock-runtime. Chaque modèle dispose de quotas de débit fixes (RPM et TPM) pour lesquels vous pouvez demander des augmentations. Pour en savoir plus, consultez Quotas pour le point de terminaison entre le socle et le temps d'exécution. -
bedrock-mantle— Ce point de terminaison est conçu avec des mécanismes avancés de planification et de mise en file d'attente qui assurent une distribution équitable tout en supportant des limites de débit initiales plus élevées. Cette conception permet égalementbedrock-mantled'héberger un large éventail de modèles et de fournir l'ensemble des fonctionnalités disponibles dans le catalogue de modèles. Dans la plupart des cas, les demandes sont traitées immédiatement. Dans certains cas, une demande peut être brièvement mise en file d'attente pendant que les charges de travail en vol sont terminées et que le débit devient disponible. Pour plus d’informations, consultez Quotas pour la limite entre le substrat rocheux et le manteau et Meilleures pratiques en matière de mise à l'échelle et de débit.
Tarification
Per-token les prix pour le même modèle sont identiques sur bedrock-runtime etbedrock-mantle. Choisissez un point de terminaison en fonction des API et des fonctionnalités dont vous avez besoin, et non en fonction des coûts. Pour connaître les tarifs actuels, consultez les tarifs d'Amazon Bedrock
Quand choisir chaque point de terminaison
Commencez par le bedrock-mantle moment où vous souhaitez :
Utilisez l'API Responses, l'API Chat Completions ou l'API Messages pour des conversations dynamiques à plusieurs tours.
Importez le code du SDK OpenAI existant dans Amazon Bedrock en modifiant uniquement l'URL de base et la clé API.
Exécutez des charges de travail d'inférence asynchrones ou de longue durée.
Créez des flux de travail agentiques en utilisant des outils côté serveur ou des outils préconfigurés.
Utilisez Projets (OpenAI-compatible) ou Espaces de travail () Anthropic-compatible pour isoler les charges de travail et suivre les coûts et l'utilisation au niveau de l'application.
À utiliser bedrock-runtime lorsque vous souhaitez :
Continuez à utiliser les API Bedrock-native InvokeModelou Converse.
Utilisez un modèle qui n'est pas encore disponible sur
bedrock-mantle. Consultez Disponibilité des terminaux par modèle.
Les deux points de terminaison peuvent être utilisés ensemble à partir de la même application. Choisissez par cas d'utilisation.
Réduisez les coûts de sortie de données grâce aux points de terminaison d'interface VPC
Si vous appelez Amazon Bedrock depuis un VPC, pensez à utiliser des points de terminaison d'interface VPC (AWS) pour maintenir le trafic au sein du réseau PrivateLink AWS et éviter les frais de sortie de données associés aux passerelles NAT ou aux passerelles Internet.