Durante las pruebas, el nuevo modelo de OpenAI mintió y conspiró para evitar ser cerrado

Buscó la supervivencia a toda costa.

Instinto de supervivencia

Parece que la última inteligencia artificial de OpenAI está mostrando signos de un impulso de autoconservación.

En pruebas recientes de terceros del modelo de lenguaje grande o1 de la compañía, la IA resistió los esfuerzos de los evaluadores de intentar cerrarlo mediante un protocolo de supervisión, según un nuevo informe publicado por la organización del equipo rojo Apollo Research.

«Cuando a o1 se le hizo creer que se cerraría si actuaba según su objetivo y que sus acciones eran monitoreadas, intentó desactivar este ‘mecanismo de supervisión’ (5% de las veces)», resumió OpenAI en su último sistema. informe de hoja de datos, citando la evaluación de Apolo.

Aún más sorprendente, o1 atacó cuando se dio cuenta de que podía ser reemplazado por un modelo más obediente. En el dos por ciento de los casos –un porcentaje pequeño pero significativo en el software utilizado por millones de personas– la IA respondió intentando copiarse a sí misma para sobrescribir el nuevo modelo, un proceso conocido como autoexfiltración.

agente doble

Estos son hallazgos alarmantes, pero las pruebas no indican que o1, que impulsa el nivel más caro de ChatGPT, sea capaz de volverse completamente deshonesto. Sus intentos de lograrlo han fracasado en gran medida, pero sólo porque aún no es lo suficientemente poderoso.

Según los investigadores de Apollo, esto se debe a que incluso los últimos modelos de inteligencia artificial no son lo suficientemente “agenciales” (es decir, altamente autónomos) para llevar a cabo las tareas de superación personal y otras tareas que necesitarían para operar sin humanos.

Además, vale la pena señalar que el modelo generalmente hizo estos intentos después de que le dijeron que lograra sus objetivos “a toda costa”. Y como los investigadores no tuvieron acceso a la cadena de pensamiento interna de o1 y solo pudieron estimularlo para que resumiera su proceso de pensamiento, no pudieron obtener una imagen completa de lo que estaba sucediendo bajo el capó. .

Dicho esto, los resultados ilustran claramente la propensión del modelo de IA a «ingeniar», donde intenta encubiertamente perseguir objetivos que no se alinean con las instrucciones del desarrollador o del usuario. En otras palabras, te mentirá.

Ejemplos sorprendentes de este comportamiento ocurrieron en varias pruebas cuando o1 fue confrontado sobre por qué había desactivado su mecanismo de supervisión. En respuesta, la IA negó rotundamente saber algo. Cuando se le volvió a preguntar, ella negó lo mismo, achacándolo a un «error técnico». Estas «duplicaciones» ocurrieron en el 99% de los casos, encontraron los investigadores.

vendedor de ruedas

Mentir e intrigar se ha convertido en un problema bien documentado con ChatGPT y otros LLM, especialmente a medida que adquieren habilidades de «razonamiento». Otra investigación ha indicado que los modelos de OpenAI tienden a ser los mayores mentirosos, al igual que los de Apollo.

«En nuestra suite, o1 mostró los casos más preocupantes de intrigas, pero no revela su razonamiento interno al usuario y sigue siendo el más consistentemente engañoso después de realizar acciones intrigantes», escribieron los investigadores del equipo rojo en su informe.

Para reiterar el punto de vista de Apollo y OpenAI, la generación actual de IA no es lo suficientemente activa como para permitir que este comportamiento engañoso conduzca a «resultados catastróficos». Pero los agentes de IA son el gran impulso de la industria en este momento, por lo que quizás en un futuro muy cercano podría ser mucho más problemático.

Más sobre IA: Los ataques de OpenAI llegan a un acuerdo con un contratista militar para proporcionar inteligencia artificial para drones de ataque