En el transcurso del evento GTC de NVIDIA que comenzó anteayer, se ha anunciado la nueva plataforma de hardware para procesos de IA, denominada Vera Rubin, en honor a la célebre astrónoma.
Como se sabe, las redes neuronales que procesan, entre otras cosas, los grandes modelos de lenguaje, requieren de potencias de cálculo enormes y su consumo energético es también gigantesco. Lograr, entonces, un hardware más eficiente y potente resulta importante para que estos LLM puedan seguir evolucionando.
Vera Rubin es una plataforma diseñada para responder a las exigencias de los sistemas de IA más avanzados: los agentes autónomos. Lejos de ser simplemente un nuevo chip, intenta ser una redefinición completa del supercomputador de IA, integrando CPU, GPU, red y memoria en una arquitectura coherente orientada a la escala masiva. Podría decirse que es un microprocesador ampliado a la escala de un rack.
Su diseño se materializa en configuraciones como el sistema NVL72, un supercomputador de IA que conecta 72 GPUs Rubin y 36 CPUs Vera mediante la sexta generación de NVLink. El resultado es una infraestructura capaz de operar prácticamente como una enorme CPU, eliminando muchas de las limitaciones que han frenado el escalado de los modelos de IA. Gracias a este diseño, el sistema alcanza hasta 3,6 exaflops de velocidad de proceso. Una de las claves de esta potencia es la red interna NVLink 6, que permite conectar todas las GPUs del rack con un ancho de banda agregado de hasta 260 terabytes por segundo. Esta interconexión permite que cada GPU acceda a la memoria y al cálculo de todas las demás, funcionando como una sola unidad de procesamiento distribuida. Además, cada GPU Rubin incorpora memoria HBM4 de altísimo ancho de banda, alcanzando más de 1,5 petabytes por segundo de transferencia interna, lo que permite manejar modelos cada vez más grandes y complejos sin saturar la memoria.
Aunque las GPUs siguen siendo el motor del cálculo masivo, la arquitectura Rubin introduce un nuevo elemento fundamental: la Vera CPU. Este procesador, basado en núcleos Arm personalizados llamados Olympus, incorpora 88 núcleos y 176 hilos de ejecución, además de un ancho de banda de memoria extremadamente elevado y hasta 1,5 TB de memoria LPDDR5X por chip.
Además, NVIDIA ha multiplicado la memoria del sistema respecto a generaciones anteriores. En un rack NVL72 se combinan 20,7 TB de HBM4 en las GPUs y aproximadamente 54 TB de LPDDR5X en las CPUs, creando un enorme espacio de memoria coherente para manejar contextos cada vez más largos y modelos con billones de parámetros.
Este gran conjunto de chips producen una gran cantidad de calor. Por ello, la plataforma utiliza refrigeración líquida directa con agua a 45 °C, eliminando gran parte de los sistemas tradicionales de climatización de los centros de datos.
Asociado a Vera Rubin, se integra la tecnología de Groq, una empresa especializada en chips para inferencia de baja latencia. Los nuevos racks Groq LPX, integrados en el ecosistema Rubin, introducen el concepto de inferencia desagregada. En lugar de ejecutar todas las fases de un modelo en la misma arquitectura, el sistema separa las etapas del proceso para optimizarlas de forma independiente. Los chips LPU de Groq gestionan la fase de decodificación de tokens, para conseguir una latencia mínima. Estas LPUs utilizan grandes cantidades de memoria SRAM integrada y alcanzan anchos de banda superiores a 150 TB/s, lo que los convierte en aceleradores extremadamente eficientes para generar tokens en tiempo real.


0 comentarios :
Publicar un comentario