Benchmark de FrontierScience: razonamiento científico de IA, explicado

Benchmark de FrontierScience: razonamiento científico de IA, explicado

OpenAI

16 dic 2025

A man is sitting at a desk in a modern office, using dual monitors displaying code and a collaborative platform, illustrating the use of Glean Code Search and Writing Tools.
A man is sitting at a desk in a modern office, using dual monitors displaying code and a collaborative platform, illustrating the use of Glean Code Search and Writing Tools.

Not sure what to do next with AI?
Assess readiness, risk, and priorities in under an hour.

Not sure what to do next with AI?
Assess readiness, risk, and priorities in under an hour.

➔ Reserva una Consulta

¿Qué es FrontierScience?

FrontierScience es un nuevo estándar diseñado para probar si los modelos de IA modernos pueden razonar como científicos, no solo recordar hechos. A diferencia de los conjuntos de datos saturados de opción múltiple, se enfoca en problemas difíciles y originales escritos y verificados por expertos en dominios de física, química y biología. OpenAI

Dos categorías complementarias

  • Pista Olimpiada: 100 tareas de respuesta corta con dificultad de medallista internacional, permitiendo una evaluación precisa (numérica, expresión o coincidencia aproximada).

  • Pista de Investigación: 60 subtareas abiertas diseñadas por científicos a nivel de doctorado, evaluadas con una rúbrica de 10 puntos para capturar la calidad del razonamiento, la metodología y el juicio científico.

Juntas, estas pistas evalúan tanto la resolución de problemas restringidos como el razonamiento más complejo utilizado en los flujos de trabajo de investigación real.

¿Por qué importa ahora?

A medida que los laboratorios e instituciones prueban la IA para la revisión de literatura, la formulación de hipótesis e incluso la optimización inicial en laboratorio húmedo, el campo necesita evaluaciones más difíciles y significativas. FrontierScience ofrece una forma defendible de comparar modelos antes de que se confíe en ellos en los procesos de investigación. Los informes recientes sobre trabajos de laboratorio asistidos por IA subrayan la urgencia de una medición robusta.

Cómo se construye FrontierScience

FrontierScience abarca más de 700 preguntas textuales (con un conjunto de oro de 160 liberado a la comunidad). Cada tarea pasa por creación, revisión por pares, resolución y revisión para asegurar que sea factual, evaluable, objetiva y difícil. Los autores expertos incluyen medallistas de olimpiadas, entrenadores e investigadores a nivel de doctorado a lo largo de subcampos especializados.

Enfoque de evaluación según OpenAI

  • Olimpiada: evaluación de respuestas cortas exactas o aproximadas para una precisión alta.

  • Investigación: evaluación basada en rúbrica a través de múltiples elementos objetivos (hasta 10 puntos) para evaluar la profundidad del razonamiento, la metodología y la solidez científica.

Qué muestran los primeros resultados

OpenAI informa que GPT-5.2 actualmente lidera modelos de frontera competidores en ambas pistas—77% en Olimpiada y 25% en Investigación—destacando un fuerte progreso en razonamiento estructurado y un margen significativo en tareas abiertas y de investigación real. Cobertura independiente refleja el tema: excelente en problemas difíciles, pero la investigación genuina sigue siendo desafiante.

Usos prácticos para equipos de I+D

  • Selección de modelos: Use las puntuaciones de FrontierScience para seleccionar modelos para proyectos piloto en su dominio.

  • Gestión de riesgos: Prefiera tareas alineadas con fortalezas demostradas (por ejemplo, subproblemas estructurados) mientras mantiene la supervisión humana para el diseño e interpretación experimental.

  • KPI impulsados por indicadores de referencia: Controle los aumentos en precisión de solución, tiempo a la comprensión y calidad de síntesis de literatura a medida que mejoran sus modelos.

Limitaciones a considerar

FrontierScience no representa toda la ciencia: es basado en texto, se centra en problemas redactados por expertos y no puede sustituir la validación experimental real. Trate las puntuaciones como señales de dirección: úselas junto con evaluaciones específicas del dominio y revisiones de seguridad rigurosas.

Comenzando (pasos rápidos)

  1. Defina sus casos de uso: cribado de literatura, verificación de pruebas o exploración de conjuntos de problemas.

  2. Seleccione modelos candidatos basados en FrontierScience y restricciones internas (costo, latencia, seguridad).

  3. Ejecute un piloto en problemas no sensibles; aplique revisión humana en el bucle.

  4. Measuring results: precisión frente a líneas base, tiempo ahorrado para los investigadores, y calidad de los artefactos de razonamiento.

  5. Escale con precaución hacia flujos de trabajo de mayor riesgo con gobernanza y auditabilidad.

Contexto del Reino Unido: empareje la evaluación de modelos con orientación nacional y señales de pruebas independientes (por ejemplo, informes de tendencias del AISI) al planificar implementaciones en entornos regulados. Instituto de Seguridad en IA

Resumen

FrontierScience eleva el estándar para medir el razonamiento científico en IA. Es desafiante, construido por expertos e informativo para equipos que deciden donde los modelos pueden ayudar hoy y donde la experiencia humana sigue siendo esencial. Hable con Generación Digital para diseñar un piloto impulsado por indicadores de referencia para su programa de investigación.

Próximos Pasos: Consiga un piloto de investigación en IA informado por FrontierScience planificado para su equipo—alineado con políticas, medible y seguro.

Preguntas frecuentes

P1: ¿Qué es FrontierScience?
Un estándar de OpenAI que mide el razonamiento científico a nivel experto con pistas de Olimpiada e Investigación en física, química y biología. OpenAI

P2: ¿Qué campos cubre?
Física, química y biología; las tareas son escritas y verificadas por expertos en el dominio. OpenAI

P3: ¿Cómo beneficia a los investigadores?
Proporciona una forma estructurada y de grado experto para comparar modelos e identificar dónde la IA puede acelerar partes del flujo de trabajo de investigación, manteniendo el juicio humano en el proceso. OpenAI

¿Qué es FrontierScience?

FrontierScience es un nuevo estándar diseñado para probar si los modelos de IA modernos pueden razonar como científicos, no solo recordar hechos. A diferencia de los conjuntos de datos saturados de opción múltiple, se enfoca en problemas difíciles y originales escritos y verificados por expertos en dominios de física, química y biología. OpenAI

Dos categorías complementarias

  • Pista Olimpiada: 100 tareas de respuesta corta con dificultad de medallista internacional, permitiendo una evaluación precisa (numérica, expresión o coincidencia aproximada).

  • Pista de Investigación: 60 subtareas abiertas diseñadas por científicos a nivel de doctorado, evaluadas con una rúbrica de 10 puntos para capturar la calidad del razonamiento, la metodología y el juicio científico.

Juntas, estas pistas evalúan tanto la resolución de problemas restringidos como el razonamiento más complejo utilizado en los flujos de trabajo de investigación real.

¿Por qué importa ahora?

A medida que los laboratorios e instituciones prueban la IA para la revisión de literatura, la formulación de hipótesis e incluso la optimización inicial en laboratorio húmedo, el campo necesita evaluaciones más difíciles y significativas. FrontierScience ofrece una forma defendible de comparar modelos antes de que se confíe en ellos en los procesos de investigación. Los informes recientes sobre trabajos de laboratorio asistidos por IA subrayan la urgencia de una medición robusta.

Cómo se construye FrontierScience

FrontierScience abarca más de 700 preguntas textuales (con un conjunto de oro de 160 liberado a la comunidad). Cada tarea pasa por creación, revisión por pares, resolución y revisión para asegurar que sea factual, evaluable, objetiva y difícil. Los autores expertos incluyen medallistas de olimpiadas, entrenadores e investigadores a nivel de doctorado a lo largo de subcampos especializados.

Enfoque de evaluación según OpenAI

  • Olimpiada: evaluación de respuestas cortas exactas o aproximadas para una precisión alta.

  • Investigación: evaluación basada en rúbrica a través de múltiples elementos objetivos (hasta 10 puntos) para evaluar la profundidad del razonamiento, la metodología y la solidez científica.

Qué muestran los primeros resultados

OpenAI informa que GPT-5.2 actualmente lidera modelos de frontera competidores en ambas pistas—77% en Olimpiada y 25% en Investigación—destacando un fuerte progreso en razonamiento estructurado y un margen significativo en tareas abiertas y de investigación real. Cobertura independiente refleja el tema: excelente en problemas difíciles, pero la investigación genuina sigue siendo desafiante.

Usos prácticos para equipos de I+D

  • Selección de modelos: Use las puntuaciones de FrontierScience para seleccionar modelos para proyectos piloto en su dominio.

  • Gestión de riesgos: Prefiera tareas alineadas con fortalezas demostradas (por ejemplo, subproblemas estructurados) mientras mantiene la supervisión humana para el diseño e interpretación experimental.

  • KPI impulsados por indicadores de referencia: Controle los aumentos en precisión de solución, tiempo a la comprensión y calidad de síntesis de literatura a medida que mejoran sus modelos.

Limitaciones a considerar

FrontierScience no representa toda la ciencia: es basado en texto, se centra en problemas redactados por expertos y no puede sustituir la validación experimental real. Trate las puntuaciones como señales de dirección: úselas junto con evaluaciones específicas del dominio y revisiones de seguridad rigurosas.

Comenzando (pasos rápidos)

  1. Defina sus casos de uso: cribado de literatura, verificación de pruebas o exploración de conjuntos de problemas.

  2. Seleccione modelos candidatos basados en FrontierScience y restricciones internas (costo, latencia, seguridad).

  3. Ejecute un piloto en problemas no sensibles; aplique revisión humana en el bucle.

  4. Measuring results: precisión frente a líneas base, tiempo ahorrado para los investigadores, y calidad de los artefactos de razonamiento.

  5. Escale con precaución hacia flujos de trabajo de mayor riesgo con gobernanza y auditabilidad.

Contexto del Reino Unido: empareje la evaluación de modelos con orientación nacional y señales de pruebas independientes (por ejemplo, informes de tendencias del AISI) al planificar implementaciones en entornos regulados. Instituto de Seguridad en IA

Resumen

FrontierScience eleva el estándar para medir el razonamiento científico en IA. Es desafiante, construido por expertos e informativo para equipos que deciden donde los modelos pueden ayudar hoy y donde la experiencia humana sigue siendo esencial. Hable con Generación Digital para diseñar un piloto impulsado por indicadores de referencia para su programa de investigación.

Próximos Pasos: Consiga un piloto de investigación en IA informado por FrontierScience planificado para su equipo—alineado con políticas, medible y seguro.

Preguntas frecuentes

P1: ¿Qué es FrontierScience?
Un estándar de OpenAI que mide el razonamiento científico a nivel experto con pistas de Olimpiada e Investigación en física, química y biología. OpenAI

P2: ¿Qué campos cubre?
Física, química y biología; las tareas son escritas y verificadas por expertos en el dominio. OpenAI

P3: ¿Cómo beneficia a los investigadores?
Proporciona una forma estructurada y de grado experto para comparar modelos e identificar dónde la IA puede acelerar partes del flujo de trabajo de investigación, manteniendo el juicio humano en el proceso. OpenAI

Recibe consejos prácticos directamente en tu bandeja de entrada

Al suscribirte, das tu consentimiento para que Generation Digital almacene y procese tus datos de acuerdo con nuestra política de privacidad. Puedes leer la política completa en gend.co/privacy.

¿Listo para obtener el apoyo que su organización necesita para usar la IA con éxito?

Miro Solutions Partner
Asana Platinum Solutions Partner
Notion Platinum Solutions Partner
Glean Certified Partner

¿Listo para obtener el apoyo que su organización necesita para usar la IA con éxito?

Miro Solutions Partner
Asana Platinum Solutions Partner
Notion Platinum Solutions Partner
Glean Certified Partner

Generación
Digital

Oficina en el Reino Unido
33 Queen St,
Londres
EC4R 1AP
Reino Unido

Oficina en Canadá
1 University Ave,
Toronto,
ON M5J 1T1,
Canadá

Oficina NAMER
77 Sands St,
Brooklyn,
NY 11201,
Estados Unidos

Oficina EMEA
Calle Charlemont, Saint Kevin's, Dublín,
D02 VN88,
Irlanda

Oficina en Medio Oriente
6994 Alsharq 3890,
An Narjis,
Riyadh 13343,
Arabia Saudita

UK Fast Growth Index UBS Logo
Financial Times FT 1000 Logo
Febe Growth 100 Logo (Background Removed)

Número de la empresa: 256 9431 77 | Derechos de autor 2026 | Términos y Condiciones | Política de Privacidad

Generación
Digital

Oficina en el Reino Unido
33 Queen St,
Londres
EC4R 1AP
Reino Unido

Oficina en Canadá
1 University Ave,
Toronto,
ON M5J 1T1,
Canadá

Oficina NAMER
77 Sands St,
Brooklyn,
NY 11201,
Estados Unidos

Oficina EMEA
Calle Charlemont, Saint Kevin's, Dublín,
D02 VN88,
Irlanda

Oficina en Medio Oriente
6994 Alsharq 3890,
An Narjis,
Riyadh 13343,
Arabia Saudita

UK Fast Growth Index UBS Logo
Financial Times FT 1000 Logo
Febe Growth 100 Logo (Background Removed)


Número de Empresa: 256 9431 77
Términos y Condiciones
Política de Privacidad
Derechos de Autor 2026