Anthropic Bloom : évaluations des comportements de l'IA en open-source
Anthropic Bloom : évaluations des comportements de l'IA en open-source
Anthropic
8 janv. 2026


Pas sûr de quoi faire ensuite avec l'IA?
Évaluez la préparation, les risques et les priorités en moins d'une heure.
Pas sûr de quoi faire ensuite avec l'IA?
Évaluez la préparation, les risques et les priorités en moins d'une heure.
➔ Téléchargez notre kit de préparation à l'IA gratuit
Anthropic Bloom est un cadre open-source pour les évaluations comportementales automatisées des grands modèles de langage. Étant donné une définition de comportement et une configuration de graine, Bloom génère des scénarios, effectue des conversations à plusieurs tours avec le modèle cible et évalue la fréquence à laquelle le comportement apparaît, produisant des métriques de niveau suite comme le taux d'élucidation et un rapport reproductible.
Pourquoi Bloom est important maintenant
Les modèles de pointe évoluent rapidement, et les normes fixées deviennent obsolètes. Bloom se concentre sur un comportement qui vous importe - comme la flagornerie, l'auto-préservation ou le sabotage - et génère automatiquement des scénarios de test variés pour mesurer à quelle fréquence et avec quelle intensité ce comportement apparaît. Comme Bloom régénère les scénarios à chaque exécution (tout en gardant une graine reproductible), vous évitez le surapprentissage sur des invites obsolètes et pouvez faire évoluer les évaluations à mesure que les modèles évoluent.
Bloom complète Petri d'Anthropic : Petri explore de larges profils comportementaux à travers de nombreuses interactions utilisateur/outils, tandis que Bloom se focalise sur un comportement à la fois, générant des suites d'évaluation ciblées et des métriques de haut niveau telles que le taux d'élucidation et la présence moyenne du comportement.
Comment fonctionne Bloom : le pipeline en quatre étapes
Bloom transforme une description de comportement et une configuration de graine en une évaluation complète :
Compréhension – analyse votre description de comportement et exemples de retranscriptions pour définir quoi mesurer et pourquoi.
Idéation – crée des scénarios diversifiés conçus pour susciter ce comportement (situation, utilisateur, invite système, accès aux outils).
Déploiement – exécute les scénarios en parallèle, simulant les deux côtés de la conversation pour sonder le modèle cible.
Jugement – évalue chaque retranscription pour la présence de comportement (et tout critère secondaire) et agrège des aperçus au niveau de la suite.
Vous pouvez exécuter les étapes de bout en bout ou individuellement. La graine contrôle le nom du comportement, les exemples, les modèles cibles, la modalité (conversation vs environnement simulé), l'effort de raisonnement, la longueur de l'interaction, et les dimensions de notation secondaires telles que le réalisme ou la difficulté d'élucidation. Citez toujours les résultats avec la graine que vous avez utilisée.
Démarrage rapide (CLI)
# 1) Install pip install git+https://github.com/safety-research/bloom.git # 2) Initialise workspace bloom init # 3) Add API keys to .env, then load them source .env # 4) Run an evaluation using the sample seed
Sorties : fichiers de configuration sous bloom-data/ (y compris seed.yaml, models.json, définitions de comportement) et résultats dans bloom-results/{behavior}/ avec retranscriptions et métriques. Utilisez le visualiseur interactif pour inspecter localement les retranscriptions :
npx @isha-gpt/bloom-viewer --port 8080 --dir
Points forts de la configuration
Comportement cible : Définissez
behavior.nameet ajoutez des exemples de retranscriptions pour orienter la génération de scénarios.Modèles : Dirigez
rollout.targetvers les identifiants de fournisseurs (par exemple, les modèles Anthropic Claude via LiteLLM) ou utilisez des noms courts à partir demodels.json.Modalité & outils : Choisissez uniquement la conversation, ou activez les environnements simulés et l'utilisation d'outils pour faire émerger des comportements à long terme ou activés par outil.
Effort de raisonnement : Ajustez les niveaux de réflexion étendue pour les modèles juge/cible; un effort plus élevé peut changer la sensibilité de détection et le biais mesuré.
Balayages : Utilisez Weights & Biases pour comparer plusieurs modèles ou ensembles de paramètres, en maintenant constante la Compréhension/Idéation et en balayant les cibles de Déploiement.
Reproductibilité : Re-lancez avec la même graine pour comparer les modèles de manière équitable; variez les paramètres de
idéationpour tester la généralité.
Ce que montrent les premiers benchmarks
La version initiale d'Anthropic démontre des suites Bloom pour quatre comportements—flagornerie délirante, sabotage à long terme instruit, auto-préservation, et biais auto-préférentiel—testés à travers 16 modèles de pointe. Les taux d'élucidation rapportés séparent les «organismes modèles» intentionnellement mal alignés des modèles en production dans la plupart des cas, et les scores des modèles juges (par exemple, variants de Claude Opus) sont fortement corrélés avec les étiquettes humaines aux extrêmes—utile lorsque vous définissez des seuils de réussite/échec.
Bloom vs Petri (et quand utiliser chacun)
Utilisez Bloom lorsque vous souhaitez une mesure précise et répétable d'un comportement avec des métriques de niveau suite que vous pouvez suivre dans le temps ou entre fournisseurs.
Utilisez Petri lorsque vous avez besoin d'une exploration large à travers de nombreux comportements potentiels pour faire émerger des retranscriptions intéressantes et des hypothèses pour une étude approfondie.
Ensemble : utilisez Petri pour découvrir les préoccupations; formalisez une définition de comportement; puis mesurez-la rigoureusement avec Bloom au fil des versions, des fournisseurs ou des modifications de politiques.
Gouvernance et alignement UK
Pour les secteurs réglementés, les retranscriptions compatibles Inspect de Bloom prennent en charge les flux de travail de reporting UK (par exemple, pipelines d'évaluation AISI/ASI). Associez Bloom avec des portes d'approbation internes : définissez vos comportements, seuils cibles (par exemple, taux maximum d'élucidation), et règles d'escalade. Suivez les métriques de tendance par modèle/version pour que votre MRM (gestion des risques modèle) puisse approuver les changements avec des preuves.
Protection des données : assurez-vous que vos graines et retranscriptions n'incluent pas de données personnelles; traitez les retranscriptions comme des données de télémétrie sensibles. Maintenez une politique de rétention et un accès basé sur les rôles.
Bonnes pratiques pour les déploiements en entreprise
Définissez précisément les comportements : rédigez des énoncés de comportement clairs et testables et incluez des « non-exemples ».
Commencez avec des petites suites : validez la Compréhension/Idéation sur un petit nombre de déploiements; puis seulement élargissez aux balayages plus grands.
Triangulez les jugements : calibrez les modèles juges par rapport aux étiquettes humaines sur un petit échantillon; documentez la corrélation et les cas limites.
Surveillez la conscience d'évaluation : filtrez les retranscriptions où le modèle semble reconnaître qu'il est testé; relancez avec des invites masquées.
Rapportez avec contexte : publiez la graine, les versions du modèle, l'effort de raisonnement et les intervalles de confiance ou barres d'erreur pour le taux d'élucidation.
Limitations à garder à l'esprit
Les juges basés sur les LLM peuvent partager des biais avec les cibles; toujours inclure un examen humain.
Les scores absolus peuvent changer avec la configuration; suivez l'ordre de classement et les écarts lors de runs comparables.
La diversité des scénarios est une force et un risque; maintenez des graines fixes pour les tests de régression et séparez les runs de « nouveaux scénarios » pour le red-team.
Résumé
Bloom offre aux équipes une méthode rapide et reproductible pour quantifier les comportements à risque dans les LLM modernes. Il s'intègre parfaitement aux programmes de gouvernance, complète l'exploration plus large via Petri, et prend en charge le reporting à la manière UK. Si vous avez besoin de preuves pour expédier ou bloquer un changement de modèle, les métriques de niveau suite de Bloom et les retranscriptions inspectables vous aident à décider.
Étapes suivantes : Besoin d'aide pour concevoir des définitions de comportement, des graines et des flux de travail de gouvernance? Discutez avec Generation Digital d'un pack de démarrage d'évaluation axé sur Claude ou des piles multi-fournisseurs.
FAQ
Q1. Qu'est-ce qu'Anthropic Bloom ?
Bloom est un cadre open-source qui automatise les évaluations comportementales des LLMs. Il génère des scénarios pour un comportement défini, exécute des conversations contre un modèle cible, et évalue la présence pour produire des métriques comme le taux d'élucidation.
Q2. En quoi Bloom est-il différent de Petri?
Petri explore de larges profils comportementaux à travers de nombreux comportements. Bloom se concentre sur un comportement à la fois et le mesure rigoureusement avec des suites basées sur des graines et répétables.
Q3. Quels résultats reçois-je ?
Fichiers de configuration, retranscriptions au niveau des déploiements, métriques de niveau suite (par exemple, taux d'élucidation), et un visualiseur local optionnel pour une révision interactive des retranscriptions.
Q4. Bloom est-il adapté aux contextes réglementés/UK ?
Oui. Il exporte des retranscriptions compatibles Inspect qui s'alignent avec les flux de travail d'évaluation UK. Vous devriez néanmoins établir des contrôles de gouvernance, de confidentialité et de rétention.
Q5. Quels modèles et fournisseurs sont pris en charge ?
Bloom s'intègre avec des fournisseurs communs via LiteLLM. Spécifiez les modèles en utilisant les identifiants de fournisseurs ou les noms courts dans la configuration.
Anthropic Bloom est un cadre open-source pour les évaluations comportementales automatisées des grands modèles de langage. Étant donné une définition de comportement et une configuration de graine, Bloom génère des scénarios, effectue des conversations à plusieurs tours avec le modèle cible et évalue la fréquence à laquelle le comportement apparaît, produisant des métriques de niveau suite comme le taux d'élucidation et un rapport reproductible.
Pourquoi Bloom est important maintenant
Les modèles de pointe évoluent rapidement, et les normes fixées deviennent obsolètes. Bloom se concentre sur un comportement qui vous importe - comme la flagornerie, l'auto-préservation ou le sabotage - et génère automatiquement des scénarios de test variés pour mesurer à quelle fréquence et avec quelle intensité ce comportement apparaît. Comme Bloom régénère les scénarios à chaque exécution (tout en gardant une graine reproductible), vous évitez le surapprentissage sur des invites obsolètes et pouvez faire évoluer les évaluations à mesure que les modèles évoluent.
Bloom complète Petri d'Anthropic : Petri explore de larges profils comportementaux à travers de nombreuses interactions utilisateur/outils, tandis que Bloom se focalise sur un comportement à la fois, générant des suites d'évaluation ciblées et des métriques de haut niveau telles que le taux d'élucidation et la présence moyenne du comportement.
Comment fonctionne Bloom : le pipeline en quatre étapes
Bloom transforme une description de comportement et une configuration de graine en une évaluation complète :
Compréhension – analyse votre description de comportement et exemples de retranscriptions pour définir quoi mesurer et pourquoi.
Idéation – crée des scénarios diversifiés conçus pour susciter ce comportement (situation, utilisateur, invite système, accès aux outils).
Déploiement – exécute les scénarios en parallèle, simulant les deux côtés de la conversation pour sonder le modèle cible.
Jugement – évalue chaque retranscription pour la présence de comportement (et tout critère secondaire) et agrège des aperçus au niveau de la suite.
Vous pouvez exécuter les étapes de bout en bout ou individuellement. La graine contrôle le nom du comportement, les exemples, les modèles cibles, la modalité (conversation vs environnement simulé), l'effort de raisonnement, la longueur de l'interaction, et les dimensions de notation secondaires telles que le réalisme ou la difficulté d'élucidation. Citez toujours les résultats avec la graine que vous avez utilisée.
Démarrage rapide (CLI)
# 1) Install pip install git+https://github.com/safety-research/bloom.git # 2) Initialise workspace bloom init # 3) Add API keys to .env, then load them source .env # 4) Run an evaluation using the sample seed
Sorties : fichiers de configuration sous bloom-data/ (y compris seed.yaml, models.json, définitions de comportement) et résultats dans bloom-results/{behavior}/ avec retranscriptions et métriques. Utilisez le visualiseur interactif pour inspecter localement les retranscriptions :
npx @isha-gpt/bloom-viewer --port 8080 --dir
Points forts de la configuration
Comportement cible : Définissez
behavior.nameet ajoutez des exemples de retranscriptions pour orienter la génération de scénarios.Modèles : Dirigez
rollout.targetvers les identifiants de fournisseurs (par exemple, les modèles Anthropic Claude via LiteLLM) ou utilisez des noms courts à partir demodels.json.Modalité & outils : Choisissez uniquement la conversation, ou activez les environnements simulés et l'utilisation d'outils pour faire émerger des comportements à long terme ou activés par outil.
Effort de raisonnement : Ajustez les niveaux de réflexion étendue pour les modèles juge/cible; un effort plus élevé peut changer la sensibilité de détection et le biais mesuré.
Balayages : Utilisez Weights & Biases pour comparer plusieurs modèles ou ensembles de paramètres, en maintenant constante la Compréhension/Idéation et en balayant les cibles de Déploiement.
Reproductibilité : Re-lancez avec la même graine pour comparer les modèles de manière équitable; variez les paramètres de
idéationpour tester la généralité.
Ce que montrent les premiers benchmarks
La version initiale d'Anthropic démontre des suites Bloom pour quatre comportements—flagornerie délirante, sabotage à long terme instruit, auto-préservation, et biais auto-préférentiel—testés à travers 16 modèles de pointe. Les taux d'élucidation rapportés séparent les «organismes modèles» intentionnellement mal alignés des modèles en production dans la plupart des cas, et les scores des modèles juges (par exemple, variants de Claude Opus) sont fortement corrélés avec les étiquettes humaines aux extrêmes—utile lorsque vous définissez des seuils de réussite/échec.
Bloom vs Petri (et quand utiliser chacun)
Utilisez Bloom lorsque vous souhaitez une mesure précise et répétable d'un comportement avec des métriques de niveau suite que vous pouvez suivre dans le temps ou entre fournisseurs.
Utilisez Petri lorsque vous avez besoin d'une exploration large à travers de nombreux comportements potentiels pour faire émerger des retranscriptions intéressantes et des hypothèses pour une étude approfondie.
Ensemble : utilisez Petri pour découvrir les préoccupations; formalisez une définition de comportement; puis mesurez-la rigoureusement avec Bloom au fil des versions, des fournisseurs ou des modifications de politiques.
Gouvernance et alignement UK
Pour les secteurs réglementés, les retranscriptions compatibles Inspect de Bloom prennent en charge les flux de travail de reporting UK (par exemple, pipelines d'évaluation AISI/ASI). Associez Bloom avec des portes d'approbation internes : définissez vos comportements, seuils cibles (par exemple, taux maximum d'élucidation), et règles d'escalade. Suivez les métriques de tendance par modèle/version pour que votre MRM (gestion des risques modèle) puisse approuver les changements avec des preuves.
Protection des données : assurez-vous que vos graines et retranscriptions n'incluent pas de données personnelles; traitez les retranscriptions comme des données de télémétrie sensibles. Maintenez une politique de rétention et un accès basé sur les rôles.
Bonnes pratiques pour les déploiements en entreprise
Définissez précisément les comportements : rédigez des énoncés de comportement clairs et testables et incluez des « non-exemples ».
Commencez avec des petites suites : validez la Compréhension/Idéation sur un petit nombre de déploiements; puis seulement élargissez aux balayages plus grands.
Triangulez les jugements : calibrez les modèles juges par rapport aux étiquettes humaines sur un petit échantillon; documentez la corrélation et les cas limites.
Surveillez la conscience d'évaluation : filtrez les retranscriptions où le modèle semble reconnaître qu'il est testé; relancez avec des invites masquées.
Rapportez avec contexte : publiez la graine, les versions du modèle, l'effort de raisonnement et les intervalles de confiance ou barres d'erreur pour le taux d'élucidation.
Limitations à garder à l'esprit
Les juges basés sur les LLM peuvent partager des biais avec les cibles; toujours inclure un examen humain.
Les scores absolus peuvent changer avec la configuration; suivez l'ordre de classement et les écarts lors de runs comparables.
La diversité des scénarios est une force et un risque; maintenez des graines fixes pour les tests de régression et séparez les runs de « nouveaux scénarios » pour le red-team.
Résumé
Bloom offre aux équipes une méthode rapide et reproductible pour quantifier les comportements à risque dans les LLM modernes. Il s'intègre parfaitement aux programmes de gouvernance, complète l'exploration plus large via Petri, et prend en charge le reporting à la manière UK. Si vous avez besoin de preuves pour expédier ou bloquer un changement de modèle, les métriques de niveau suite de Bloom et les retranscriptions inspectables vous aident à décider.
Étapes suivantes : Besoin d'aide pour concevoir des définitions de comportement, des graines et des flux de travail de gouvernance? Discutez avec Generation Digital d'un pack de démarrage d'évaluation axé sur Claude ou des piles multi-fournisseurs.
FAQ
Q1. Qu'est-ce qu'Anthropic Bloom ?
Bloom est un cadre open-source qui automatise les évaluations comportementales des LLMs. Il génère des scénarios pour un comportement défini, exécute des conversations contre un modèle cible, et évalue la présence pour produire des métriques comme le taux d'élucidation.
Q2. En quoi Bloom est-il différent de Petri?
Petri explore de larges profils comportementaux à travers de nombreux comportements. Bloom se concentre sur un comportement à la fois et le mesure rigoureusement avec des suites basées sur des graines et répétables.
Q3. Quels résultats reçois-je ?
Fichiers de configuration, retranscriptions au niveau des déploiements, métriques de niveau suite (par exemple, taux d'élucidation), et un visualiseur local optionnel pour une révision interactive des retranscriptions.
Q4. Bloom est-il adapté aux contextes réglementés/UK ?
Oui. Il exporte des retranscriptions compatibles Inspect qui s'alignent avec les flux de travail d'évaluation UK. Vous devriez néanmoins établir des contrôles de gouvernance, de confidentialité et de rétention.
Q5. Quels modèles et fournisseurs sont pris en charge ?
Bloom s'intègre avec des fournisseurs communs via LiteLLM. Spécifiez les modèles en utilisant les identifiants de fournisseurs ou les noms courts dans la configuration.
Recevez chaque semaine des nouvelles et des conseils sur l'IA directement dans votre boîte de réception
En vous abonnant, vous consentez à ce que Génération Numérique stocke et traite vos informations conformément à notre politique de confidentialité. Vous pouvez lire la politique complète sur gend.co/privacy.
Ateliers et webinaires à venir


Clarté opérationnelle à grande échelle - Asana
Webinaire Virtuel
Mercredi 25 février 2026
En ligne


Collaborez avec des coéquipiers IA - Asana
Atelier en personne
Jeudi 26 février 2026
London, UK


De l'idée au prototype - L'IA dans Miro
Webinaire virtuel
Mercredi 18 février 2026
En ligne
Génération
Numérique

Bureau du Royaume-Uni
Génération Numérique Ltée
33 rue Queen,
Londres
EC4R 1AP
Royaume-Uni
Bureau au Canada
Génération Numérique Amériques Inc
181 rue Bay, Suite 1800
Toronto, ON, M5J 2T9
Canada
Bureau aux États-Unis
Generation Digital Americas Inc
77 Sands St,
Brooklyn, NY 11201,
États-Unis
Bureau de l'UE
Génération de logiciels numériques
Bâtiment Elgee
Dundalk
A91 X2R3
Irlande
Bureau du Moyen-Orient
6994 Alsharq 3890,
An Narjis,
Riyad 13343,
Arabie Saoudite
Numéro d'entreprise : 256 9431 77 | Droits d'auteur 2026 | Conditions générales | Politique de confidentialité
Génération
Numérique

Bureau du Royaume-Uni
Génération Numérique Ltée
33 rue Queen,
Londres
EC4R 1AP
Royaume-Uni
Bureau au Canada
Génération Numérique Amériques Inc
181 rue Bay, Suite 1800
Toronto, ON, M5J 2T9
Canada
Bureau aux États-Unis
Generation Digital Americas Inc
77 Sands St,
Brooklyn, NY 11201,
États-Unis
Bureau de l'UE
Génération de logiciels numériques
Bâtiment Elgee
Dundalk
A91 X2R3
Irlande
Bureau du Moyen-Orient
6994 Alsharq 3890,
An Narjis,
Riyad 13343,
Arabie Saoudite
Numéro d'entreprise : 256 9431 77
Conditions générales
Politique de confidentialité
Droit d'auteur 2026









