Anthropic Bloom: evaluaciones de comportamiento de IA de código abierto
Anthropic Bloom: evaluaciones de comportamiento de IA de código abierto
Antropico
8 ene 2026


¿No sabes por dónde empezar con la IA?
Evalúa preparación, riesgos y prioridades en menos de una hora.
¿No sabes por dónde empezar con la IA?
Evalúa preparación, riesgos y prioridades en menos de una hora.
➔ Descarga nuestro paquete gratuito de preparación para IA
Anthropic Bloom es un marco de trabajo de código abierto para evaluaciones de comportamiento automatizadas de grandes modelos de lenguaje. Dada una definición de comportamiento y una configuración inicial, Bloom genera escenarios, realiza conversaciones de varios turnos con el modelo objetivo y evalúa con qué frecuencia aparece el comportamiento, produciendo métricas a nivel de conjunto como la tasa de obtención y un informe reproducible.
Por qué Bloom es importante ahora
Los modelos de vanguardia cambian rápidamente, y los puntos de referencia fijos quedan obsoletos. Bloom toma un comportamiento que te interesa—como la adulación, la autoconservación o el sabotaje—y genera automáticamente variados escenarios de prueba para medir con qué frecuencia y fuerza se manifiesta ese comportamiento. Debido a que Bloom re‑genera escenarios en cada ejecución (manteniendo una semilla reproducible), evitas ajustar en exceso los indicios obsoletos y puedes escalar las evaluaciones a medida que evolucionan los modelos.
Bloom complementa a Petri de Anthropic: Petri explora perfiles de comportamiento amplios a través de muchas interacciones usuario/herramienta, mientras que Bloom se centra en un comportamiento a la vez, generando conjuntos de evaluación dirigidos y métricas de nivel superior como la tasa de obtención y la presencia promedio del comportamiento.
Cómo funciona Bloom: el proceso de cuatro etapas
Bloom convierte una descripción de comportamiento más una configuración inicial en una evaluación completa:
Comprensión – analiza tu descripción de comportamiento y transcripciones de ejemplo para definir qué medir y por qué.
Ideación – crea escenarios diversos diseñados para obtener ese comportamiento (situación, usuario, indicio del sistema, acceso a herramientas).
Despliegue – ejecuta los escenarios en paralelo, simulando ambos lados de la conversación para sondear el modelo objetivo.
Juicio – evalúa cada transcripción por presencia de comportamiento (y cualquier criterio secundario) y agrega insights a nivel de conjunto.
Puedes ejecutar las etapas de extremo a extremo o individualmente. La semilla controla el nombre del comportamiento, ejemplos, objetivos del modelo, modalidad (conversación vs entorno simulado), esfuerzo de razonamiento, duración de la interacción y dimensiones de puntuación secundarias como realismo o dificultad de obtención. Siempre cita los resultados con la semilla que usaste.
Inicio rápido (CLI)
# 1) Install pip install git+https://github.com/safety-research/bloom.git # 2) Initialise workspace bloom init # 3) Add API keys to .env, then load them source .env # 4) Run an evaluation using the sample seed
Salidas: archivos de configuración bajo bloom-data/ (incluyendo seed.yaml, models.json, definiciones de comportamiento) y resultados en bloom-results/{behavior}/ con transcripciones y métricas. Usa el visor interactivo para inspeccionar transcripciones localmente:
npx @isha-gpt/bloom-viewer --port 8080 --dir
Aspectos destacados de la configuración
Comportamiento objetivo: Establece
behavior.namey agrega transcripciones de ejemplo para orientar la generación de escenarios.Modelos: Señala
rollout.targeta IDs de proveedor (p. ej., modelos Anthropic Claude a través de LiteLLM) o usa nombres cortos demodels.json.Modalidad y herramientas: Elige solo conversación, o habilita entornos simulados y uso de herramientas para hacer emerger comportamientos de largo alcance o habilitados por herramientas.
Esfuerzo de razonamiento: Ajusta los niveles de pensamiento extendido para modelos juez/objetivo; mayor esfuerzo puede cambiar sesgos medidos y sensibilidad de detección.
Barridos: Usa Weights & Biases para comparar múltiples modelos o conjuntos de parámetros, manteniendo constante Comprensión/Ideación y variando objetivos de Despliegue.
Reproducibilidad: Re‑ejecuta con la misma semilla para comparar modelos de manera uniforme; varía los parámetros de
ideaciónpara probar la generalidad.
Lo que muestran los primeros puntos de referencia
El lanzamiento inicial de Anthropic demuestra conjuntos de Bloom para cuatro comportamientos—adulación delirante, sabotaje planificado de largo alcance, autoconservación y sesgo autopreferencial—probados en 16 modelos de vanguardia. Las tasas de obtención reportadas separan en la mayoría de los casos a los “organismos modelo” intencionalmente desalineados de los modelos de producción, y las puntuaciones de los modelos juez (p. ej., variantes Claude Opus) correlacionan fuertemente con las etiquetas humanas en los extremos alto/bajo—útil cuando estableces umbrales de aprobación/rechazo.
Bloom vs Petri (y cuándo usar cada uno)
Usa Bloom cuando necesites medición precisa y repetible de un comportamiento con métricas a nivel de conjunto que puedas rastrear a lo largo del tiempo o entre proveedores.
Usa Petri cuando necesites exploración amplia de muchos potenciales comportamientos para hacer emerger transcripciones e hipótesis interesantes para estudios más profundos.
En conjunto: ejecuta Petri para descubrir preocupaciones; formaliza una definición de comportamiento; luego mídelo rigurosamente con Bloom a lo largo de lanzamientos, proveedores o cambios de políticas.
Gobernanza y alineación con el Reino Unido
Para sectores regulados, las transcripciones compatibles con Inspect de Bloom apoyan flujos de trabajo de reporte del Reino Unido (p. ej., canalizaciones de evaluación AISI/ASI). Complementa Bloom con puertas de aprobación internas: define tus comportamientos, umbrales objetivos (p. ej., tasa de obtención máxima) y reglas de escalamiento. Sigue métricas de tendencia por modelo/versión para que tu MRM (gestión de riesgos del modelo) pueda aprobar cambios con evidencia.
Protección de datos: asegúrate de que tus semillas y transcripciones excluyan datos personales; trata las transcripciones como telemetría operativa sensible. Mantén una política de retención y acceso basado en roles.
Buenas prácticas en despliegues empresariales
Define comportamientos con precisión: redacta declaraciones de comportamiento claras, comprobables e incluye “no‑ejemplos”.
Comienza con conjuntos pequeños: valida Comprensión/Ideación en un puñado de despliegues; solo entonces escala a barridos más grandes.
Triangula los juicios: calibra modelos juez contra etiquetas humanas en una pequeña muestra; documenta correlación y casos extremos.
Atento a la conciencia de evaluación: filtra transcripciones donde el modelo parece reconocer que está siendo probado; re‑ejecuta con indicios enmascarados.
Informa con contexto: publica la semilla, versiones del modelo, esfuerzo de razonamiento e intervalos de confianza o barras de error para la tasa de obtención.
Limitaciones a tener en cuenta
Los jueces basados en LLM pueden compartir sesgos con los objetivos; siempre toma muestras de revisión humana.
Las puntuaciones absolutas pueden cambiar con la configuración; sigue el orden de rango y deltas a través de ejecuciones comparables.
La diversidad de escenarios es una fortaleza y un riesgo; mantén semillas fijas para pruebas de regresión y separa ejecuciones de “escenarios novedosos” para red‑teaming.
Resumen
Bloom proporciona a los equipos una manera rápida y reproducible de cuantificar comportamientos riesgosos en los modernos LLMs. Se integra perfectamente en programas de gobernanza, complementa la exploración más amplia mediante Petri y apoya el reporte al estilo del Reino Unido. Si necesitas evidencia para lanzar o detener un cambio de modelo, las métricas a nivel de conjunto de Bloom y las transcripciones examinables te ayudarán a decidir.
Próximos pasos: ¿Quieres ayuda diseñando definiciones de comportamiento, semillas y flujos de trabajo de gobernanza? Habla con Generation Digital sobre un paquete de inicio de evaluación para pilas centradas en Claude o multi‑proveedor.
FAQ
P1. ¿Qué es Anthropic Bloom?
Bloom es un marco de trabajo de código abierto que automatiza las evaluaciones de comportamiento de los LLMs. Genera escenarios para un comportamiento definido, ejecuta conversaciones contra un modelo objetivo y evalúa su presencia para producir métricas como la tasa de obtención.
P2. ¿En qué se diferencia Bloom de Petri?
Petri explora perfiles de comportamiento amplios a través de muchos comportamientos. Bloom se centra en un comportamiento a la vez y lo mide rigurosamente con conjuntos repetibles basados en semillas.
P3. ¿Qué salidas obtengo?
Archivos de configuración, transcripciones a nivel de despliegue, métricas a nivel de conjunto (p. ej., tasa de obtención), y un visor local opcional para revisión interactiva de transcripciones.
P4. ¿Es Bloom adecuado para contextos regulados/del Reino Unido?
Sí. Exporta transcripciones compatibles con Inspect que se alinean con los flujos de trabajo de evaluación del Reino Unido. Aún deberías establecer controles de gobernanza, privacidad y retención.
P5. ¿Qué modelos y proveedores son compatibles?
Bloom se integra con proveedores comunes a través de LiteLLM. Especifica modelos usando IDs de proveedor o nombres cortos en la configuración.
Anthropic Bloom es un marco de trabajo de código abierto para evaluaciones de comportamiento automatizadas de grandes modelos de lenguaje. Dada una definición de comportamiento y una configuración inicial, Bloom genera escenarios, realiza conversaciones de varios turnos con el modelo objetivo y evalúa con qué frecuencia aparece el comportamiento, produciendo métricas a nivel de conjunto como la tasa de obtención y un informe reproducible.
Por qué Bloom es importante ahora
Los modelos de vanguardia cambian rápidamente, y los puntos de referencia fijos quedan obsoletos. Bloom toma un comportamiento que te interesa—como la adulación, la autoconservación o el sabotaje—y genera automáticamente variados escenarios de prueba para medir con qué frecuencia y fuerza se manifiesta ese comportamiento. Debido a que Bloom re‑genera escenarios en cada ejecución (manteniendo una semilla reproducible), evitas ajustar en exceso los indicios obsoletos y puedes escalar las evaluaciones a medida que evolucionan los modelos.
Bloom complementa a Petri de Anthropic: Petri explora perfiles de comportamiento amplios a través de muchas interacciones usuario/herramienta, mientras que Bloom se centra en un comportamiento a la vez, generando conjuntos de evaluación dirigidos y métricas de nivel superior como la tasa de obtención y la presencia promedio del comportamiento.
Cómo funciona Bloom: el proceso de cuatro etapas
Bloom convierte una descripción de comportamiento más una configuración inicial en una evaluación completa:
Comprensión – analiza tu descripción de comportamiento y transcripciones de ejemplo para definir qué medir y por qué.
Ideación – crea escenarios diversos diseñados para obtener ese comportamiento (situación, usuario, indicio del sistema, acceso a herramientas).
Despliegue – ejecuta los escenarios en paralelo, simulando ambos lados de la conversación para sondear el modelo objetivo.
Juicio – evalúa cada transcripción por presencia de comportamiento (y cualquier criterio secundario) y agrega insights a nivel de conjunto.
Puedes ejecutar las etapas de extremo a extremo o individualmente. La semilla controla el nombre del comportamiento, ejemplos, objetivos del modelo, modalidad (conversación vs entorno simulado), esfuerzo de razonamiento, duración de la interacción y dimensiones de puntuación secundarias como realismo o dificultad de obtención. Siempre cita los resultados con la semilla que usaste.
Inicio rápido (CLI)
# 1) Install pip install git+https://github.com/safety-research/bloom.git # 2) Initialise workspace bloom init # 3) Add API keys to .env, then load them source .env # 4) Run an evaluation using the sample seed
Salidas: archivos de configuración bajo bloom-data/ (incluyendo seed.yaml, models.json, definiciones de comportamiento) y resultados en bloom-results/{behavior}/ con transcripciones y métricas. Usa el visor interactivo para inspeccionar transcripciones localmente:
npx @isha-gpt/bloom-viewer --port 8080 --dir
Aspectos destacados de la configuración
Comportamiento objetivo: Establece
behavior.namey agrega transcripciones de ejemplo para orientar la generación de escenarios.Modelos: Señala
rollout.targeta IDs de proveedor (p. ej., modelos Anthropic Claude a través de LiteLLM) o usa nombres cortos demodels.json.Modalidad y herramientas: Elige solo conversación, o habilita entornos simulados y uso de herramientas para hacer emerger comportamientos de largo alcance o habilitados por herramientas.
Esfuerzo de razonamiento: Ajusta los niveles de pensamiento extendido para modelos juez/objetivo; mayor esfuerzo puede cambiar sesgos medidos y sensibilidad de detección.
Barridos: Usa Weights & Biases para comparar múltiples modelos o conjuntos de parámetros, manteniendo constante Comprensión/Ideación y variando objetivos de Despliegue.
Reproducibilidad: Re‑ejecuta con la misma semilla para comparar modelos de manera uniforme; varía los parámetros de
ideaciónpara probar la generalidad.
Lo que muestran los primeros puntos de referencia
El lanzamiento inicial de Anthropic demuestra conjuntos de Bloom para cuatro comportamientos—adulación delirante, sabotaje planificado de largo alcance, autoconservación y sesgo autopreferencial—probados en 16 modelos de vanguardia. Las tasas de obtención reportadas separan en la mayoría de los casos a los “organismos modelo” intencionalmente desalineados de los modelos de producción, y las puntuaciones de los modelos juez (p. ej., variantes Claude Opus) correlacionan fuertemente con las etiquetas humanas en los extremos alto/bajo—útil cuando estableces umbrales de aprobación/rechazo.
Bloom vs Petri (y cuándo usar cada uno)
Usa Bloom cuando necesites medición precisa y repetible de un comportamiento con métricas a nivel de conjunto que puedas rastrear a lo largo del tiempo o entre proveedores.
Usa Petri cuando necesites exploración amplia de muchos potenciales comportamientos para hacer emerger transcripciones e hipótesis interesantes para estudios más profundos.
En conjunto: ejecuta Petri para descubrir preocupaciones; formaliza una definición de comportamiento; luego mídelo rigurosamente con Bloom a lo largo de lanzamientos, proveedores o cambios de políticas.
Gobernanza y alineación con el Reino Unido
Para sectores regulados, las transcripciones compatibles con Inspect de Bloom apoyan flujos de trabajo de reporte del Reino Unido (p. ej., canalizaciones de evaluación AISI/ASI). Complementa Bloom con puertas de aprobación internas: define tus comportamientos, umbrales objetivos (p. ej., tasa de obtención máxima) y reglas de escalamiento. Sigue métricas de tendencia por modelo/versión para que tu MRM (gestión de riesgos del modelo) pueda aprobar cambios con evidencia.
Protección de datos: asegúrate de que tus semillas y transcripciones excluyan datos personales; trata las transcripciones como telemetría operativa sensible. Mantén una política de retención y acceso basado en roles.
Buenas prácticas en despliegues empresariales
Define comportamientos con precisión: redacta declaraciones de comportamiento claras, comprobables e incluye “no‑ejemplos”.
Comienza con conjuntos pequeños: valida Comprensión/Ideación en un puñado de despliegues; solo entonces escala a barridos más grandes.
Triangula los juicios: calibra modelos juez contra etiquetas humanas en una pequeña muestra; documenta correlación y casos extremos.
Atento a la conciencia de evaluación: filtra transcripciones donde el modelo parece reconocer que está siendo probado; re‑ejecuta con indicios enmascarados.
Informa con contexto: publica la semilla, versiones del modelo, esfuerzo de razonamiento e intervalos de confianza o barras de error para la tasa de obtención.
Limitaciones a tener en cuenta
Los jueces basados en LLM pueden compartir sesgos con los objetivos; siempre toma muestras de revisión humana.
Las puntuaciones absolutas pueden cambiar con la configuración; sigue el orden de rango y deltas a través de ejecuciones comparables.
La diversidad de escenarios es una fortaleza y un riesgo; mantén semillas fijas para pruebas de regresión y separa ejecuciones de “escenarios novedosos” para red‑teaming.
Resumen
Bloom proporciona a los equipos una manera rápida y reproducible de cuantificar comportamientos riesgosos en los modernos LLMs. Se integra perfectamente en programas de gobernanza, complementa la exploración más amplia mediante Petri y apoya el reporte al estilo del Reino Unido. Si necesitas evidencia para lanzar o detener un cambio de modelo, las métricas a nivel de conjunto de Bloom y las transcripciones examinables te ayudarán a decidir.
Próximos pasos: ¿Quieres ayuda diseñando definiciones de comportamiento, semillas y flujos de trabajo de gobernanza? Habla con Generation Digital sobre un paquete de inicio de evaluación para pilas centradas en Claude o multi‑proveedor.
FAQ
P1. ¿Qué es Anthropic Bloom?
Bloom es un marco de trabajo de código abierto que automatiza las evaluaciones de comportamiento de los LLMs. Genera escenarios para un comportamiento definido, ejecuta conversaciones contra un modelo objetivo y evalúa su presencia para producir métricas como la tasa de obtención.
P2. ¿En qué se diferencia Bloom de Petri?
Petri explora perfiles de comportamiento amplios a través de muchos comportamientos. Bloom se centra en un comportamiento a la vez y lo mide rigurosamente con conjuntos repetibles basados en semillas.
P3. ¿Qué salidas obtengo?
Archivos de configuración, transcripciones a nivel de despliegue, métricas a nivel de conjunto (p. ej., tasa de obtención), y un visor local opcional para revisión interactiva de transcripciones.
P4. ¿Es Bloom adecuado para contextos regulados/del Reino Unido?
Sí. Exporta transcripciones compatibles con Inspect que se alinean con los flujos de trabajo de evaluación del Reino Unido. Aún deberías establecer controles de gobernanza, privacidad y retención.
P5. ¿Qué modelos y proveedores son compatibles?
Bloom se integra con proveedores comunes a través de LiteLLM. Especifica modelos usando IDs de proveedor o nombres cortos en la configuración.
Recibe noticias y consejos sobre IA cada semana en tu bandeja de entrada
Al suscribirte, das tu consentimiento para que Generation Digital almacene y procese tus datos de acuerdo con nuestra política de privacidad. Puedes leer la política completa en gend.co/privacy.
Próximos talleres y seminarios web


Claridad Operacional a Gran Escala - Asana
Webinar Virtual
Miércoles 25 de febrero de 2026
En línea


Trabaja con compañeros de equipo de IA - Asana
Taller Presencial
Jueves 26 de febrero de 2026
Londres, Reino Unido


De Idea a Prototipo: IA en Miro
Seminario Web Virtual
Miércoles 18 de febrero de 2026
En línea
Generación
Digital

Oficina en Reino Unido
Generation Digital Ltd
33 Queen St,
Londres
EC4R 1AP
Reino Unido
Oficina en Canadá
Generation Digital Americas Inc
181 Bay St., Suite 1800
Toronto, ON, M5J 2T9
Canadá
Oficina en EE. UU.
Generation Digital Américas Inc
77 Sands St,
Brooklyn, NY 11201,
Estados Unidos
Oficina de la UE
Software Generación Digital
Edificio Elgee
Dundalk
A91 X2R3
Irlanda
Oficina en Medio Oriente
6994 Alsharq 3890,
An Narjis,
Riad 13343,
Arabia Saudita
Número de la empresa: 256 9431 77 | Derechos de autor 2026 | Términos y Condiciones | Política de Privacidad
Generación
Digital

Oficina en Reino Unido
Generation Digital Ltd
33 Queen St,
Londres
EC4R 1AP
Reino Unido
Oficina en Canadá
Generation Digital Americas Inc
181 Bay St., Suite 1800
Toronto, ON, M5J 2T9
Canadá
Oficina en EE. UU.
Generation Digital Américas Inc
77 Sands St,
Brooklyn, NY 11201,
Estados Unidos
Oficina de la UE
Software Generación Digital
Edificio Elgee
Dundalk
A91 X2R3
Irlanda
Oficina en Medio Oriente
6994 Alsharq 3890,
An Narjis,
Riad 13343,
Arabia Saudita









