Anthropic Bloom: evaluaciones de comportamiento de IA de código abierto

Antropico

8 ene 2026

Una persona está sentada en un escritorio de madera, trabajando en una computadora que muestra un panel de control de IA con varias visualizaciones de datos y gráficos, con un telón de fondo de un paisaje urbano moderno, representando el concepto del florecimiento antropogénico en tecnología e innovación.

¿No sabes por dónde empezar con la IA?Evalúa preparación, riesgos y prioridades en menos de una hora.

➔ Descarga nuestro paquete gratuito de preparación para IA

Anthropic Bloom es un marco de trabajo de código abierto para evaluaciones de comportamiento automatizadas de grandes modelos de lenguaje. Dada una definición de comportamiento y una configuración inicial, Bloom genera escenarios, realiza conversaciones de varios turnos con el modelo objetivo y evalúa con qué frecuencia aparece el comportamiento, produciendo métricas a nivel de conjunto como la tasa de obtención y un informe reproducible.

Por qué Bloom es importante ahora

Los modelos de vanguardia cambian rápidamente, y los puntos de referencia fijos quedan obsoletos. Bloom toma un comportamiento que te interesa—como la adulación, la autoconservación o el sabotaje—y genera automáticamente variados escenarios de prueba para medir con qué frecuencia y fuerza se manifiesta ese comportamiento. Debido a que Bloom re‑genera escenarios en cada ejecución (manteniendo una semilla reproducible), evitas ajustar en exceso los indicios obsoletos y puedes escalar las evaluaciones a medida que evolucionan los modelos.

Bloom complementa a Petri de Anthropic: Petri explora perfiles de comportamiento amplios a través de muchas interacciones usuario/herramienta, mientras que Bloom se centra en un comportamiento a la vez, generando conjuntos de evaluación dirigidos y métricas de nivel superior como la tasa de obtención y la presencia promedio del comportamiento.

Cómo funciona Bloom: el proceso de cuatro etapas

Bloom convierte una descripción de comportamiento más una configuración inicial en una evaluación completa:

Comprensión – analiza tu descripción de comportamiento y transcripciones de ejemplo para definir qué medir y por qué.
Ideación – crea escenarios diversos diseñados para obtener ese comportamiento (situación, usuario, indicio del sistema, acceso a herramientas).
Despliegue – ejecuta los escenarios en paralelo, simulando ambos lados de la conversación para sondear el modelo objetivo.
Juicio – evalúa cada transcripción por presencia de comportamiento (y cualquier criterio secundario) y agrega insights a nivel de conjunto.

Puedes ejecutar las etapas de extremo a extremo o individualmente. La semilla controla el nombre del comportamiento, ejemplos, objetivos del modelo, modalidad (conversación vs entorno simulado), esfuerzo de razonamiento, duración de la interacción y dimensiones de puntuación secundarias como realismo o dificultad de obtención. Siempre cita los resultados con la semilla que usaste.

Inicio rápido (CLI)

# 1) Install
pip install git+https://github.com/safety-research/bloom.git

# 2) Initialise workspace
bloom init

# 3) Add API keys to .env, then load them
source .env

# 4) Run an evaluation using the sample seed

Salidas: archivos de configuración bajo bloom-data/ (incluyendo seed.yaml, models.json, definiciones de comportamiento) y resultados en bloom-results/{behavior}/ con transcripciones y métricas. Usa el visor interactivo para inspeccionar transcripciones localmente:

npx @isha-gpt/bloom-viewer --port 8080 --dir

Aspectos destacados de la configuración

Comportamiento objetivo: Establece behavior.name y agrega transcripciones de ejemplo para orientar la generación de escenarios.
Modelos: Señala rollout.target a IDs de proveedor (p. ej., modelos Anthropic Claude a través de LiteLLM) o usa nombres cortos de models.json.
Modalidad y herramientas: Elige solo conversación, o habilita entornos simulados y uso de herramientas para hacer emerger comportamientos de largo alcance o habilitados por herramientas.
Esfuerzo de razonamiento: Ajusta los niveles de pensamiento extendido para modelos juez/objetivo; mayor esfuerzo puede cambiar sesgos medidos y sensibilidad de detección.
Barridos: Usa Weights & Biases para comparar múltiples modelos o conjuntos de parámetros, manteniendo constante Comprensión/Ideación y variando objetivos de Despliegue.
Reproducibilidad: Re‑ejecuta con la misma semilla para comparar modelos de manera uniforme; varía los parámetros de ideación para probar la generalidad.

Lo que muestran los primeros puntos de referencia

El lanzamiento inicial de Anthropic demuestra conjuntos de Bloom para cuatro comportamientos—adulación delirante, sabotaje planificado de largo alcance, autoconservación y sesgo autopreferencial—probados en 16 modelos de vanguardia. Las tasas de obtención reportadas separan en la mayoría de los casos a los “organismos modelo” intencionalmente desalineados de los modelos de producción, y las puntuaciones de los modelos juez (p. ej., variantes Claude Opus) correlacionan fuertemente con las etiquetas humanas en los extremos alto/bajo—útil cuando estableces umbrales de aprobación/rechazo.

Bloom vs Petri (y cuándo usar cada uno)

Usa Bloom cuando necesites medición precisa y repetible de un comportamiento con métricas a nivel de conjunto que puedas rastrear a lo largo del tiempo o entre proveedores.
Usa Petri cuando necesites exploración amplia de muchos potenciales comportamientos para hacer emerger transcripciones e hipótesis interesantes para estudios más profundos.
En conjunto: ejecuta Petri para descubrir preocupaciones; formaliza una definición de comportamiento; luego mídelo rigurosamente con Bloom a lo largo de lanzamientos, proveedores o cambios de políticas.

Gobernanza y alineación con el Reino Unido

Para sectores regulados, las transcripciones compatibles con Inspect de Bloom apoyan flujos de trabajo de reporte del Reino Unido (p. ej., canalizaciones de evaluación AISI/ASI). Complementa Bloom con puertas de aprobación internas: define tus comportamientos, umbrales objetivos (p. ej., tasa de obtención máxima) y reglas de escalamiento. Sigue métricas de tendencia por modelo/versión para que tu MRM (gestión de riesgos del modelo) pueda aprobar cambios con evidencia.

Protección de datos: asegúrate de que tus semillas y transcripciones excluyan datos personales; trata las transcripciones como telemetría operativa sensible. Mantén una política de retención y acceso basado en roles.

Buenas prácticas en despliegues empresariales

Define comportamientos con precisión: redacta declaraciones de comportamiento claras, comprobables e incluye “no‑ejemplos”.
Comienza con conjuntos pequeños: valida Comprensión/Ideación en un puñado de despliegues; solo entonces escala a barridos más grandes.
Triangula los juicios: calibra modelos juez contra etiquetas humanas en una pequeña muestra; documenta correlación y casos extremos.
Atento a la conciencia de evaluación: filtra transcripciones donde el modelo parece reconocer que está siendo probado; re‑ejecuta con indicios enmascarados.
Informa con contexto: publica la semilla, versiones del modelo, esfuerzo de razonamiento e intervalos de confianza o barras de error para la tasa de obtención.

Limitaciones a tener en cuenta

Los jueces basados en LLM pueden compartir sesgos con los objetivos; siempre toma muestras de revisión humana.
Las puntuaciones absolutas pueden cambiar con la configuración; sigue el orden de rango y deltas a través de ejecuciones comparables.
La diversidad de escenarios es una fortaleza y un riesgo; mantén semillas fijas para pruebas de regresión y separa ejecuciones de “escenarios novedosos” para red‑teaming.

Resumen

Bloom proporciona a los equipos una manera rápida y reproducible de cuantificar comportamientos riesgosos en los modernos LLMs. Se integra perfectamente en programas de gobernanza, complementa la exploración más amplia mediante Petri y apoya el reporte al estilo del Reino Unido. Si necesitas evidencia para lanzar o detener un cambio de modelo, las métricas a nivel de conjunto de Bloom y las transcripciones examinables te ayudarán a decidir.

Próximos pasos: ¿Quieres ayuda diseñando definiciones de comportamiento, semillas y flujos de trabajo de gobernanza? Habla con Generation Digital sobre un paquete de inicio de evaluación para pilas centradas en Claude o multi‑proveedor.

FAQ

P1. ¿Qué es Anthropic Bloom?
Bloom es un marco de trabajo de código abierto que automatiza las evaluaciones de comportamiento de los LLMs. Genera escenarios para un comportamiento definido, ejecuta conversaciones contra un modelo objetivo y evalúa su presencia para producir métricas como la tasa de obtención.

P2. ¿En qué se diferencia Bloom de Petri?
Petri explora perfiles de comportamiento amplios a través de muchos comportamientos. Bloom se centra en un comportamiento a la vez y lo mide rigurosamente con conjuntos repetibles basados en semillas.

P3. ¿Qué salidas obtengo?
Archivos de configuración, transcripciones a nivel de despliegue, métricas a nivel de conjunto (p. ej., tasa de obtención), y un visor local opcional para revisión interactiva de transcripciones.

P4. ¿Es Bloom adecuado para contextos regulados/del Reino Unido?
Sí. Exporta transcripciones compatibles con Inspect que se alinean con los flujos de trabajo de evaluación del Reino Unido. Aún deberías establecer controles de gobernanza, privacidad y retención.

P5. ¿Qué modelos y proveedores son compatibles?
Bloom se integra con proveedores comunes a través de LiteLLM. Especifica modelos usando IDs de proveedor o nombres cortos en la configuración.

‹ Google Antigravity: IDE centrado en agentes y cómo usarlo

Guía de seguridad de Shadow AI para CIOs y CTOs (2026)›

Recibe noticias y consejos sobre IA cada semana en tu bandeja de entrada

Al suscribirte, das tu consentimiento para que Generation Digital almacene y procese tus datos de acuerdo con nuestra política de privacidad. Puedes leer la política completa en gend.co/privacy.

Beyond the Pilot: Scaling AI to Boost Private Equity Portfolio Value

Boost Private Equity Portfolio Value: Scale AI Pilots for Growth

A group of professionals in a modern office setting is focused on a tablet displaying data related to Samsung Browsing Assist, emphasizing collaborative technology solutions powered by Perplexity APIs for enhancing productivity across various devices.

Samsung Browsing Assist: Perplexity APIs Power 1B Devices

A group of professionals sitting at a modern office space, with a central person using voice-activated technology on a smartphone, illustrating the theme "Gemini Live: The Future of Natural Audio AI."

Gemini Live: The Future of Natural Audio AI

Generación
Digital

Miro
Asana
Notion
Glean

¿Cuál Herramienta de IA? Quiz

El Camino hacia el Éxito con IA

Acerca de Generación Digital

Contacto

Oficina en Reino Unido

Generation Digital Ltd
33 Queen St,
Londres
EC4R 1AP
Reino Unido

Oficina en Canadá

Generation Digital Americas Inc
181 Bay St., Suite 1800
Toronto, ON, M5J 2T9
Canadá

Oficina en EE. UU.

Generation Digital Américas Inc
77 Sands St,
Brooklyn, NY 11201,
Estados Unidos

Oficina de la UE

Software Generación Digital
Edificio Elgee
Dundalk
A91 X2R3
Irlanda

Oficina en Medio Oriente

6994 Alsharq 3890,
An Narjis,
Riad 13343,
Arabia Saudita

Número de la empresa: 256 9431 77 | Derechos de autor 2026 | Términos y Condiciones | Política de Privacidad