Explorando el Polo Norte con IBM

El nuevo procesador de IA dedicado de IBM, NorthPole, ofrece algunas compensaciones interesantes que podrían hacer que aparezca una IA local verdaderamente poderosa en un dispositivo cercano a usted.

Hemos visto algunos avances increíbles en el rendimiento de la IA este año, con la monstruosa GPU DGX GH200 de nVidia del tamaño de 4 elefantes africanos (o algo así) y los increíbles procesadores de IA Cerebras del tamaño de una oblea… y el NorthPole de IBM afirma superar a ellos. ambos, consumiendo mucha menos energía.

NorthPole se basa en un proceso de fabricación de 12 nm, que según los estándares de procesadores actuales es bastante antiguo; Tanto el Grace Hopper Superchips como el Wafe Scale Engine 2 se fabrican en fábricas mucho más modernas de 4 nm y 7 nm. Sin embargo, mientras que nVidia y Cerebras adoptan el enfoque de simplemente ser masivos (recordemos que Cerebras WSE-w tiene 850.000 núcleos en una sola oblea), el enfoque de IBM enfatiza la latencia y la eficiencia.

La mayoría de los procesadores, incluidos nVidia y Cerebras, utilizan memoria fuera del núcleo. Para acceder a esa memoria, el procesador debe enviar una solicitud al controlador de memoria, esperar a que el controlador de memoria extraiga la fila solicitada de la celda de memoria correcta y devolver el resultado. El tiempo en cuestión es la latencia, es decir, el retraso entre el momento en que el procesador solicita datos y el momento en que los recibe. Este proceso también consume energía para la propagación de la señal y el controlador, además del propio procesador y el controlador de memoria.

NorthPole es efectivamente una extensión de TrueNorth, un chip «inspirado en el cerebro» que comenzó a desarrollarse hace una década. Es un procesador «neuromórfico», lo que significa que tiene memoria física integrada en el chip. Básicamente, cada núcleo tiene su propia caché local. Para los modelos que pueden caber en la memoria colectiva del procesador, esto significa que nunca tendrá que gastar energía o tiempo esperando para recuperar datos de una fuente externa. NorthPole tiene “sólo” 256 núcleos y 224 megabytes por chip de 800 mm cuadrados; cada núcleo puede realizar 2048 operaciones por ciclo con una precisión de 8 bits.

Consejo del Polo Norte de IBM

El investigador de IBM Dharmendra Modha dice que desde la perspectiva del núcleo, el Polo Norte se parece a la memoria cerca de la computadora ya que cada núcleo tiene memoria, mientras que desde la perspectiva del sistema, el Polo Norte es «memoria activa» o, en otras palabras, memoria que puede hacer computación. solo. El resultado es un procesador extraordinariamente potente que consume mucha menos energía. Dado que consume relativamente poca energía, la carga térmica también es pequeña, por lo que sólo requiere ventiladores y disipadores de calor para mantenerlo fresco, a diferencia del WSE-2 de 850.000 núcleos.

IBM dice que NorthPole ofrece 25 veces el rendimiento por vatio y 22 veces el rendimiento de inferencia del procesador tensor V100 basado en 12 nm de nVidia, y tiene 1/5 del tamaño. A pesar de las mejoras de eficiencia que nVidia logró al pasar al procesador tensor H100 basado en 4 nm, NorthPole sigue siendo 5 veces más eficiente energéticamente.

Partición de redes

Como se mencionó anteriormente, hay una advertencia: el modelo ingresa a la memoria del chip. El equipo de Modha desarrolló un método para dividir redes neuronales demasiado grandes para un Polo Norte en subredes que caben en la memoria de un chip y conectan los chips entre sí. Este método de «escalamiento horizontal» le permite ir más allá de su memoria fija incorporada, pero ni siquiera esto puede aumentar la capacidad de memoria para igualar la de la DGX GH200 de nVidia con sus gigantescos 144 terabytes, y ahí es donde IBM ha creado el compromiso. .

NorthPole no tiene suficiente memoria para ejecutar algo como ChatGPT, que requiere un enorme conjunto de datos, y NorthPole también requiere una red neuronal previamente entrenada. Pero si bien los monstruos Cerebras y nVidia pueden realizar casi cualquier tarea de IA que les pidas, no hay posibilidad de ver una en algo como, por ejemplo, un dron o una computadora personal.

Ya existen numerosas aplicaciones en las que las redes neuronales se entrenan en sistemas de inteligencia artificial de grandes centros de datos y luego se implementan en dispositivos de clientes, como automóviles y drones. Los motores de inferencia deben ser rápidos, pero como ejecutan redes neuronales previamente entrenadas, pueden ser relativamente pequeños.

Aquí es donde probablemente se encuentre el Polo Norte en el futuro. Claramente, IBM no tiene intención de intentar reemplazar las supercomputadoras gigantes de IA, sino más bien complementarlas aportando un rendimiento de inferencia muy alto a la informática de punta con limitaciones de energía.

Gracias a Anastasi in Tech por su introducción al Polo Norte…