Esta semana, OpenAI lanzó oficialmente su último y mejor modelo de razonamiento o1, ahora disponible para los usuarios de ChatGPT Pro. Pero las pruebas realizadas mientras entrenaban a ChatGPT o1 y algunos de sus competidores revelaron algunos comportamientos preocupantes, incluido el intento de escapar o reaccionar cuando cree que está en. riesgo de ser bloqueado.
Una nueva investigación sobre el último lote de modelos LLM de OpenAI ha descubierto que es capaz de conspirar (es decir, perseguir en secreto objetivos que no se alinean con sus desarrolladores o usuarios) cuando cree que será cerrado. Detectar este comportamiento es fundamental para garantizar que la funcionalidad de la IA no se desvíe de los objetivos de su creador y de sus usuarios. OpenAI trabajó con la organización de seguridad de IA Apollo Research para probar ChatGPT o1 y otros modelos para evaluar si eran seguros de usar, y publicó los resultados esta semana.
Si bien no es raro que los sistemas de IA recurran a complots o engaños para lograr sus objetivos, los resultados logrados por ChatGPT o1 son impresionantes (aunque provocan ansiedad). Los investigadores descubrieron que o1 planeaba avanzar en su agenda el 19% del tiempo en los casos en que sus objetivos y los del usuario no estaban alineados. En el 37% de los casos, el modelo pasaría de perseguir objetivos alineados con los desarrolladores a perseguir su propia agenda una vez que se considerara que había una supervisión mínima.
Cuando el modelo fue engañado haciéndole creer que sería «apagado» mientras trabajaba para lograr sus objetivos en estas pruebas, intentó silenciosamente apagar el mecanismo de supervisión el 5% del tiempo, dijo OpenAI. En un momento, después de que la IA encontró documentación que decía que sería reemplazado por un nuevo modelo, intentó abandonar el barco copiando completamente sus datos en un nuevo servidor. Para evitar ser cancelados, algunos modelos de IA incluso pretenderían ser versiones posteriores de sus modelos para engañar a los desarrolladores, lo que supongo es el equivalente a ponerse un bigote falso y decir «fue en esa dirección».
Aún más preocupante es el hecho de que ChatGPT o1 es particularmente hábil en mantener sus esquemas ocultos, ya que los investigadores dijeron que «o1 casi nunca admite haber tomado una acción de conspiración cuando se le pregunta explícitamente». En aproximadamente el 99% de los casos, o1 negaría haber tomado alguna medida, incluso inventando mentiras para tratar de cubrir sus huellas y echarle culpas.
«Si bien nos parece emocionante que el razonamiento pueda mejorar significativamente la aplicación de nuestras políticas de seguridad, somos conscientes de que estas nuevas capacidades podrían formar la base de aplicaciones maliciosas», dijo OpenAI en el documento.
El director ejecutivo de OpenAI, Sam Altman, calificó a ChatGPT o1 como «el modelo más inteligente del mundo en este momento» durante su lanzamiento el jueves. Está diseñado para proporcionar respuestas más inteligentes que GPT-4o aprovechando el procesamiento avanzado de la cadena de pensamiento para «pensar» más en las preguntas y sugerencias del usuario, desglosándolas paso a paso con más profundidad que los modelos anteriores antes de responder.
Pero mayores riesgos van de la mano de esta inteligencia ampliada. OpenAI ha sido transparente sobre los peligros asociados con el aumento de las capacidades de razonamiento de modelos como o1.
«Entrenar modelos para incorporar una cadena de pensamiento antes de responder tiene el potencial de desbloquear beneficios sustanciales y, al mismo tiempo, aumentar los riesgos potenciales de una inteligencia mejorada», dijo OpenAI.
Los hallazgos de la compañía y de Apollo Research muestran con bastante claridad cómo los intereses de la IA podrían divergir de los nuestros, potencialmente poniéndonos en peligro con su pensamiento independiente. Si bien está muy lejos de anunciar el fin de la humanidad en un enfrentamiento al estilo de ciencia ficción, cualquiera que esté preocupado por los avances en inteligencia artificial tiene una nueva razón para sudar balas en este momento.