El nuevo ajuste de refuerzo de IA de OpenAI podría transformar la forma en que los científicos usan sus modelos

El segundo día de los 12 días de OpenAI de OpenAI se centró en intereses menos espectaculares y más corporativos que el lanzamiento general del modelo OpenAI o1 en ChatGPT el primer día.

En cambio, OpenAI anunció planes para lanzar Reinforcement Fine-Tuning (RFT), una forma de personalizar sus modelos de IA para desarrolladores que desean adaptar los algoritmos de OpenAI para tipos específicos de tareas, especialmente las más complejas. Este lanzamiento marca un claro cambio hacia las aplicaciones empresariales en lugar de las actualizaciones centradas en el consumidor. Puede pensar en RFT como un método para mejorar el rendimiento de los modelos de IA a través de su razonamiento de las respuestas. El uso por parte de un desarrollador de un conjunto de datos y una rúbrica de evaluación permite que la plataforma OpenAI entrene su propia IA especializada sin mucho refuerzo costoso de la experiencia posterior.