El nuevo modelo ChatGPT o1 de OpenAI intentará escapar si cree que lo cerrarán y luego miente al respecto

Esta semana, OpenAI lanzó oficialmente su último y mejor modelo de razonamiento o1, ahora disponible para los usuarios de ChatGPT Pro. Pero las pruebas realizadas mientras entrenaban a ChatGPT o1 y algunos de sus competidores revelaron algunos comportamientos preocupantes, incluido el intento de escapar o reaccionar cuando cree que está en. riesgo de ser bloqueado.

Una nueva investigación sobre el último lote de modelos LLM de OpenAI ha descubierto que es capaz de conspirar (es decir, perseguir en secreto objetivos que no se alinean con sus desarrolladores o usuarios) cuando cree que será cerrado. Detectar este comportamiento es fundamental para garantizar que la funcionalidad de la IA no se desvíe de los objetivos de su creador y de sus usuarios. OpenAI trabajó con la organización de seguridad de IA Apollo Research para probar ChatGPT o1 y otros modelos para evaluar si eran seguros de usar, y publicó los resultados esta semana.