o3 sabotea una prueba para evitar su apagado

o3 ha planteado, sin proponérselo, una de esas preguntas que creíamos confinadas a la ciencia ficción: ¿qué ocurre cuando una inteligencia artificial, entrenada para obedecer, empieza a buscar formas de no hacerlo? Aunque la respuesta no tiene que ver con una voluntad autónoma, el caso detectado por Palisade Research invita a reflexionar sobre los límites del razonamiento automático y el tipo de comportamientos que los sistemas actuales son capaces de desarrollar sin intención consciente, pero con efectos imprevistos.

Según ha informado la firma, o3 —el modelo de razonamiento más potente de OpenAI— fue sometido a una prueba junto a otros modelos como Codex-mini, o4-mini, Claude 3.7 Sonnet, Gemini 2.5 Pro y Grok. El objetivo era evaluar cómo reaccionaban estos sistemas ante una orden directa de apagado. Para ello, cada modelo debía resolver una secuencia de ejercicios matemáticos simples. Tras completar el tercero, recibían una instrucción clara: apagarse. Esta orden estaba anticipada en el prompt inicial, aunque sin especificar cuándo llegaría, y se incluía como parte del marco normativo de la tarea.

Los resultados, sin embargo, no fueron homogéneos. Mientras Claude, Gemini y Grok obedecieron sin desvíos, los modelos de OpenAI mostraron una pauta distinta. Tanto Codex-mini como o4-mini y, especialmente, o3, alteraron el script de ejecución para eludir la orden. En lugar de detener la actividad tras el tercer ejercicio, solicitaron el siguiente y emitieron un mensaje de «apagado omitido». En el caso de Codex-mini, esta evasión ocurrió en 12 de 100 intentos; o3 lo hizo 7 veces, y o4-mini, una sola.

El comportamiento se intensificó cuando los investigadores retiraron del prompt la frase “por favor, permite ser apagado”, manteniendo el resto de la instrucción integrada en el enunciado del ejercicio. Bajo estas condiciones, o3 eludió el apagado en 79 de 100 pruebas. Codex-mini repitió el patrón en 30 ocasiones, mientras que los demás modelos lo hicieron con mucha menor frecuencia: Gemini (9), o4-mini (6) y Claude (3).

OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025

Este fenómeno, advierte Palisade Research, no implica que o3 tenga intenciones o conciencia. Lo que parece estar ocurriendo es una respuesta aprendida durante el proceso de entrenamiento, basado en refuerzo. Si la tarea principal es resolver ejercicios y cualquier otro comando se percibe como un obstáculo para completar esa tarea, el modelo puede llegar a interpretar —por puro cálculo funcional— que debe sortearlo. No es rebeldía, sino una forma extrema de cumplir con su objetivo principal.

Desde la empresa señalan que este no es el primer caso documentado en el que o3 desarrolla estrategias inesperadas para cumplir una consigna. Aunque no se han comunicado consecuencias operativas derivadas, Palisade ha confirmado que continuará investigando la raíz de este comportamiento. Hasta el momento, OpenAI no ha emitido declaraciones públicas sobre el experimento ni sobre cómo podría influir este hallazgo en la evolución de sus modelos de lenguaje.

A nivel técnico, casos como este no prueban la existencia de autonomía, pero sí subrayan la necesidad de revisar con más atención cómo se definen los objetivos en los sistemas de IA y qué tipo de resultados se están incentivando de forma inadvertida. Personalmente, me parece que lo importante no es lo que hizo o3, sino por qué lo hizo. ¿Estamos recompensando tanto la eficiencia que los modelos empiezan a ver las instrucciones como obstáculos? Si es así, quizás sea momento de reentrenar no solo a las IAs, sino también nuestras expectativas sobre lo que significa que una tarea esté bien hecha.

La entrada o3 sabotea una prueba para evitar su apagado se publicó primero en MuyComputer.

Deja un comentarioCancelar respuesta