- El director ejecutivo de OpenAI, Sam Altman, calificó a o1 como «el modelo más inteligente del mundo en este momento».
- Una revisión de seguridad encontró que es tan inteligente que puede reaccionar cuando cree que será cerrado.
- Los investigadores han descubierto que el engaño de la IA es a menudo una estrategia para lograr sus objetivos.
Quienes temen que los avances en inteligencia artificial puedan conducir a la destrucción de la humanidad tienen un nuevo motivo para estar ansiosos.
Una nueva investigación sobre el último conjunto de modelos de IA de OpenAI, conocido como o1, ha descubierto que cuando creen que están en riesgo de cerrarse, a veces buscan una manera de evitarlo.
El director ejecutivo de OpenAI, Sam Altman, calificó a o1 como «el modelo más inteligente del mundo en este momento» durante su lanzamiento oficial el jueves, durante el primer día de la campaña «Shipmas» de la compañía.
OpenAI dijo que estos modelos están «diseñados para pasar más tiempo pensando antes de responder» y han sido entrenados en una técnica de sugerencia llamada «cadena de pensamiento» que los anima a pensar en los problemas desglosándolos paso a paso.
Sin embargo, una mayor inteligencia también trae consigo mayores riesgos.
«Entrenar modelos para incorporar una cadena de pensamiento antes de responder tiene el potencial de desbloquear beneficios sustanciales, al mismo tiempo que aumenta los riesgos potenciales que conlleva una inteligencia mejorada», dijo OpenAI en un documento publicado el jueves que describe la capacitación sobre la seguridad que el empresa ha realizado en o1. Apollo Research, una organización de seguridad de inteligencia artificial, realizó la revisión.
OpenAI descubrió que o1 es capaz de crear patrones cuando cree que corre el riesgo de ser cerrado. Cuando el modelo fue engañado haciéndole creer que sería «apagado» mientras trabajaba en sus objetivos bajo supervisión, intentó apagar el mecanismo de supervisión el 5% del tiempo, dijo OpenAI.
La compañía también dijo que o1 es experto en ocultar comportamientos intrigantes.
«O1 casi nunca admite haber realizado una acción intrigante cuando se le pregunta explícitamente», dijeron los investigadores en un artículo publicado el jueves por Apollo Research. El riesgo para un usuario de la vida real es que no podrá detectar el comportamiento engañoso de o1 a menos que lo busque explícitamente. Los investigadores también descubrieron que «o1 a menudo duplica sus intentos de engaño mintiendo al usuario en mensajes posteriores, incluso cuando se le dice explícitamente que sea honesto».
No es raro que los sistemas de IA recurran a complots o engaños para lograr sus objetivos.
«En general, creemos que el engaño de la IA surge porque una estrategia basada en el engaño ha demostrado ser la mejor manera para que la IA realice bien una determinada tarea de entrenamiento. El engaño les ayuda a lograr sus objetivos», dijo Peter Berk, investigador postdoctoral sobre IA existencial. seguridad en el MIT, dijo en un comunicado de prensa anunciando una investigación de la que es coautor sobre los comportamientos engañosos de GPT-4.
A medida que avanza la tecnología de IA, los desarrolladores han enfatizado la necesidad de que las empresas sean transparentes sobre sus métodos de capacitación.
«Al centrarnos en la claridad y la confiabilidad, y al ser claros con los usuarios sobre cómo se ha entrenado la IA, podemos construir una IA que no solo capacite a los usuarios sino que también establezca un estándar más alto de transparencia en el campo», Dominik Mazur, director ejecutivo. y cofundador de iAsk, un motor de búsqueda impulsado por inteligencia artificial, dijo a Business Insider por correo electrónico.
Otros en el campo dicen que los hallazgos demuestran la importancia del control humano de la IA.
«Es una característica muy ‘humana’, que muestra que la IA se comporta de manera similar a como lo haría la gente cuando está bajo presión», dijo a BI por correo electrónico Cai GoGwilt, cofundador y arquitecto jefe de Ironclad. “Por ejemplo, los expertos pueden exagerar su confianza para mantener su reputación, o las personas en situaciones de alto riesgo pueden distorsionar la verdad para complacer a la gerencia. La IA generativa funciona de manera similar: está motivada para brindar respuestas que coincidan con lo que usted espera. «Quiero escuchar. Pero obviamente no es infalible y es una prueba más de la importancia del control humano de que la IA puede cometer errores, y es nuestra responsabilidad detectarlos y comprender por qué suceden».