Anthropic Bloom : évaluations des comportements de l'IA en open-source

Anthropic

8 janv. 2026

Une personne est assise à un bureau en bois, travaillant sur un ordinateur affichant un tableau de bord d'IA avec diverses visualisations de données et graphiques, le tout sur fond de paysage urbain moderne, incarnant le concept de floraison anthropique dans la technologie et l'innovation.

Pas sûr de quoi faire ensuite avec l'IA?Évaluez la préparation, les risques et les priorités en moins d'une heure.

➔ Téléchargez notre kit de préparation à l'IA gratuit

Anthropic Bloom est un cadre open-source pour les évaluations comportementales automatisées des grands modèles de langage. Étant donné une définition de comportement et une configuration de graine, Bloom génère des scénarios, effectue des conversations à plusieurs tours avec le modèle cible et évalue la fréquence à laquelle le comportement apparaît, produisant des métriques de niveau suite comme le taux d'élucidation et un rapport reproductible.

Pourquoi Bloom est important maintenant

Les modèles de pointe évoluent rapidement, et les normes fixées deviennent obsolètes. Bloom se concentre sur un comportement qui vous importe - comme la flagornerie, l'auto-préservation ou le sabotage - et génère automatiquement des scénarios de test variés pour mesurer à quelle fréquence et avec quelle intensité ce comportement apparaît. Comme Bloom régénère les scénarios à chaque exécution (tout en gardant une graine reproductible), vous évitez le surapprentissage sur des invites obsolètes et pouvez faire évoluer les évaluations à mesure que les modèles évoluent.

Bloom complète Petri d'Anthropic : Petri explore de larges profils comportementaux à travers de nombreuses interactions utilisateur/outils, tandis que Bloom se focalise sur un comportement à la fois, générant des suites d'évaluation ciblées et des métriques de haut niveau telles que le taux d'élucidation et la présence moyenne du comportement.

Comment fonctionne Bloom : le pipeline en quatre étapes

Bloom transforme une description de comportement et une configuration de graine en une évaluation complète :

Compréhension – analyse votre description de comportement et exemples de retranscriptions pour définir quoi mesurer et pourquoi.
Idéation – crée des scénarios diversifiés conçus pour susciter ce comportement (situation, utilisateur, invite système, accès aux outils).
Déploiement – exécute les scénarios en parallèle, simulant les deux côtés de la conversation pour sonder le modèle cible.
Jugement – évalue chaque retranscription pour la présence de comportement (et tout critère secondaire) et agrège des aperçus au niveau de la suite.

Vous pouvez exécuter les étapes de bout en bout ou individuellement. La graine contrôle le nom du comportement, les exemples, les modèles cibles, la modalité (conversation vs environnement simulé), l'effort de raisonnement, la longueur de l'interaction, et les dimensions de notation secondaires telles que le réalisme ou la difficulté d'élucidation. Citez toujours les résultats avec la graine que vous avez utilisée.

Démarrage rapide (CLI)

# 1) Install
pip install git+https://github.com/safety-research/bloom.git

# 2) Initialise workspace
bloom init

# 3) Add API keys to .env, then load them
source .env

# 4) Run an evaluation using the sample seed

Sorties : fichiers de configuration sous bloom-data/ (y compris seed.yaml, models.json, définitions de comportement) et résultats dans bloom-results/{behavior}/ avec retranscriptions et métriques. Utilisez le visualiseur interactif pour inspecter localement les retranscriptions :

npx @isha-gpt/bloom-viewer --port 8080 --dir

Points forts de la configuration

Comportement cible : Définissez behavior.name et ajoutez des exemples de retranscriptions pour orienter la génération de scénarios.
Modèles : Dirigez rollout.target vers les identifiants de fournisseurs (par exemple, les modèles Anthropic Claude via LiteLLM) ou utilisez des noms courts à partir de models.json.
Modalité & outils : Choisissez uniquement la conversation, ou activez les environnements simulés et l'utilisation d'outils pour faire émerger des comportements à long terme ou activés par outil.
Effort de raisonnement : Ajustez les niveaux de réflexion étendue pour les modèles juge/cible; un effort plus élevé peut changer la sensibilité de détection et le biais mesuré.
Balayages : Utilisez Weights & Biases pour comparer plusieurs modèles ou ensembles de paramètres, en maintenant constante la Compréhension/Idéation et en balayant les cibles de Déploiement.
Reproductibilité : Re-lancez avec la même graine pour comparer les modèles de manière équitable; variez les paramètres de idéation pour tester la généralité.

Ce que montrent les premiers benchmarks

La version initiale d'Anthropic démontre des suites Bloom pour quatre comportements—flagornerie délirante, sabotage à long terme instruit, auto-préservation, et biais auto-préférentiel—testés à travers 16 modèles de pointe. Les taux d'élucidation rapportés séparent les «organismes modèles» intentionnellement mal alignés des modèles en production dans la plupart des cas, et les scores des modèles juges (par exemple, variants de Claude Opus) sont fortement corrélés avec les étiquettes humaines aux extrêmes—utile lorsque vous définissez des seuils de réussite/échec.

Bloom vs Petri (et quand utiliser chacun)

Utilisez Bloom lorsque vous souhaitez une mesure précise et répétable d'un comportement avec des métriques de niveau suite que vous pouvez suivre dans le temps ou entre fournisseurs.
Utilisez Petri lorsque vous avez besoin d'une exploration large à travers de nombreux comportements potentiels pour faire émerger des retranscriptions intéressantes et des hypothèses pour une étude approfondie.
Ensemble : utilisez Petri pour découvrir les préoccupations; formalisez une définition de comportement; puis mesurez-la rigoureusement avec Bloom au fil des versions, des fournisseurs ou des modifications de politiques.

Gouvernance et alignement UK

Pour les secteurs réglementés, les retranscriptions compatibles Inspect de Bloom prennent en charge les flux de travail de reporting UK (par exemple, pipelines d'évaluation AISI/ASI). Associez Bloom avec des portes d'approbation internes : définissez vos comportements, seuils cibles (par exemple, taux maximum d'élucidation), et règles d'escalade. Suivez les métriques de tendance par modèle/version pour que votre MRM (gestion des risques modèle) puisse approuver les changements avec des preuves.

Protection des données : assurez-vous que vos graines et retranscriptions n'incluent pas de données personnelles; traitez les retranscriptions comme des données de télémétrie sensibles. Maintenez une politique de rétention et un accès basé sur les rôles.

Bonnes pratiques pour les déploiements en entreprise

Définissez précisément les comportements : rédigez des énoncés de comportement clairs et testables et incluez des « non-exemples ».
Commencez avec des petites suites : validez la Compréhension/Idéation sur un petit nombre de déploiements; puis seulement élargissez aux balayages plus grands.
Triangulez les jugements : calibrez les modèles juges par rapport aux étiquettes humaines sur un petit échantillon; documentez la corrélation et les cas limites.
Surveillez la conscience d'évaluation : filtrez les retranscriptions où le modèle semble reconnaître qu'il est testé; relancez avec des invites masquées.
Rapportez avec contexte : publiez la graine, les versions du modèle, l'effort de raisonnement et les intervalles de confiance ou barres d'erreur pour le taux d'élucidation.

Limitations à garder à l'esprit

Les juges basés sur les LLM peuvent partager des biais avec les cibles; toujours inclure un examen humain.
Les scores absolus peuvent changer avec la configuration; suivez l'ordre de classement et les écarts lors de runs comparables.
La diversité des scénarios est une force et un risque; maintenez des graines fixes pour les tests de régression et séparez les runs de « nouveaux scénarios » pour le red-team.

Résumé

Bloom offre aux équipes une méthode rapide et reproductible pour quantifier les comportements à risque dans les LLM modernes. Il s'intègre parfaitement aux programmes de gouvernance, complète l'exploration plus large via Petri, et prend en charge le reporting à la manière UK. Si vous avez besoin de preuves pour expédier ou bloquer un changement de modèle, les métriques de niveau suite de Bloom et les retranscriptions inspectables vous aident à décider.

Étapes suivantes : Besoin d'aide pour concevoir des définitions de comportement, des graines et des flux de travail de gouvernance? Discutez avec Generation Digital d'un pack de démarrage d'évaluation axé sur Claude ou des piles multi-fournisseurs.

FAQ

Q1. Qu'est-ce qu'Anthropic Bloom ?
Bloom est un cadre open-source qui automatise les évaluations comportementales des LLMs. Il génère des scénarios pour un comportement défini, exécute des conversations contre un modèle cible, et évalue la présence pour produire des métriques comme le taux d'élucidation.

Q2. En quoi Bloom est-il différent de Petri?
Petri explore de larges profils comportementaux à travers de nombreux comportements. Bloom se concentre sur un comportement à la fois et le mesure rigoureusement avec des suites basées sur des graines et répétables.

Q3. Quels résultats reçois-je ?
Fichiers de configuration, retranscriptions au niveau des déploiements, métriques de niveau suite (par exemple, taux d'élucidation), et un visualiseur local optionnel pour une révision interactive des retranscriptions.

Q4. Bloom est-il adapté aux contextes réglementés/UK ?
Oui. Il exporte des retranscriptions compatibles Inspect qui s'alignent avec les flux de travail d'évaluation UK. Vous devriez néanmoins établir des contrôles de gouvernance, de confidentialité et de rétention.

Q5. Quels modèles et fournisseurs sont pris en charge ?
Bloom s'intègre avec des fournisseurs communs via LiteLLM. Spécifiez les modèles en utilisant les identifiants de fournisseurs ou les noms courts dans la configuration.

‹ Google Antigravity : IDE axé sur l'agent et comment l'utiliser

Guide pratique sur la sécurité de l'IA fantôme pour les DSI et CTO (2026) ›

Recevez chaque semaine des nouvelles et des conseils sur l'IA directement dans votre boîte de réception

En vous abonnant, vous consentez à ce que Génération Numérique stocke et traite vos informations conformément à notre politique de confidentialité. Vous pouvez lire la politique complète sur gend.co/privacy.

Beyond the Pilot: Scaling AI to Boost Private Equity Portfolio Value

Boost Private Equity Portfolio Value: Scale AI Pilots for Growth

A group of professionals in a modern office setting is focused on a tablet displaying data related to Samsung Browsing Assist, emphasizing collaborative technology solutions powered by Perplexity APIs for enhancing productivity across various devices.

Samsung Browsing Assist: Perplexity APIs Power 1B Devices

A group of professionals sitting at a modern office space, with a central person using voice-activated technology on a smartphone, illustrating the theme "Gemini Live: The Future of Natural Audio AI."

Gemini Live: The Future of Natural Audio AI

Génération
Numérique

Miro
Asana
Notion
Glean

Quel outil d'IA? Quiz

Le chemin vers le succès avec l'IA

À propos de Generation Digital

Contact

Bureau du Royaume-Uni

Génération Numérique Ltée
33 rue Queen,
Londres
EC4R 1AP
Royaume-Uni

Bureau au Canada

Génération Numérique Amériques Inc
181 rue Bay, Suite 1800
Toronto, ON, M5J 2T9
Canada

Bureau aux États-Unis

Generation Digital Americas Inc
77 Sands St,
Brooklyn, NY 11201,
États-Unis

Bureau de l'UE

Génération de logiciels numériques
Bâtiment Elgee
Dundalk
A91 X2R3
Irlande

Bureau du Moyen-Orient

6994 Alsharq 3890,
An Narjis,
Riyad 13343,
Arabie Saoudite

Numéro d'entreprise : 256 9431 77 | Droits d'auteur 2026 | Conditions générales | Politique de confidentialité