25/12/25

Chip fotónico puede permitir un rendimiento mucho mayor en los LLMs

 


El desarrollo del chip óptico LightGen puede representar un avance significativo en la computación fotónica aplicada a la inteligencia artificial generativa, particularmente en tareas de visión inteligente a gran escala. 

Publicado en la revista Science con el título "All-optical synthesis chip for large-scale intelligent semantic vision generation", este trabajo liderado por  Yitong Chen, Xinyue Sun, Longtao Tan, Yizhou Jiang, Yin Zhou, Wenjun Zhang y Guangtao Zhai, de las universidades de Shanghai Jiao Tong y es en China, introduce un chip completamente óptico que integra más de dos millones de neuronas fotónicas en una estructura tridimensional. Es esta estructura 3D en la posición de las "neuronas" la que distingue a este nuevo chip de los habituales dispositivos fotónicos que tienen sus circuitos grabados en 2D. Por así decirlo, pasamos de un diseño plano de puertas fotónicas y conexiones planas a un diseño en 3D que permite un procesamiento paralelo, con los nodos operando simultáneamente en vez de secuencialmente. 

Como es bien sabido, los circuitos fotónicos permiten mayor velocidad y menor consumo que los basados en silicio. Los primeros mueven fotones a la velocidad de la luz mientras que los segundos deben mover electrones. 

La innovación clave radica en la integración de un espacio latente óptico que permite variar las dimensiones de la red neuronal a la velocidad de la luz, evitando conversiones dimensionales que consumen tiempo en sistemas fotónicos anteriores. Además, incorpora algoritmos de entrenamiento basados en técnicas bayesianas, independientes de los datos de referencia (ground-truth), lo que facilita el manejo de modelos generativos complejos sin depender de conjuntos de datos etiquetados exhaustivos. Experimentalmente, el chip ha demostrado capacidades en la generación de imágenes semánticas de alta resolución, eliminación de ruido, transferencia de estilos, creación de escenas tridimensionales y manipulación de imágenes coloridas complejas. Por ejemplo, puede procesar imágenes enteras de una sola vez gracias a su estructura en capas apiladas, superando el enfoque de de procesar la información poco a poco, por fragmentos, que se usa en otros chips fotónicos planos, lo que a menudo conlleva el que los fragmentos independientemente procesados no encajan al final con una  menor calidad del resultado. En pruebas realizadas, LightGen generó imágenes de animales y paisajes naturales, así como videos cortos en alta definición, con un rendimiento que iguala o supera a sistemas líderes como Stable Diffusion y StyleGAN.

En términos de rendimiento, el chip ofrece una velocidad de cómputo de extremo a extremo y una eficiencia energética que superan en más de dos órdenes de magnitud a los chips electrónicos más modernos, como el NVIDIA A100. Esto se traduce en un aumento de 100 veces en velocidad y eficiencia energética, junto con una densidad computacional 100 veces mayor en el mismo espacio físico. Estas métricas se obtuvieron en tareas que tradicionalmente demandan recursos masivos, como la generación de contenido visual de alta complejidad, donde los chips convencionales tienen limitaciones con tareas de computación intensiva. La ausencia de conversiones electro-ópticas reduce las latencias y el consumo de energía, ya que los fotones viajan sin resistencia, generan menos calor y permiten un paralelismo masivo inherente a la óptica.

Aunque el enfoque principal de LightGen está en aplicaciones de visión generativa, sus ventajas se extienden al funcionamiento de los grandes modelos de lenguaje (LLMs), que también forman parte del ecosistema de IA generativa a gran escala. Los LLMs, como GPT o Llama, requieren un poder computacional enorme tanto para la fase de entrenamiento como para la de generación de diálogo, consumiendo cantidades ingentes de electricidad y generando emisiones de carbono significativas. La computación óptica, como la aquí citada, aprovecha la velocidad inherente de la luz para acelerar las operaciones matriciales en las que se basan las matemáticas que hacen funcionar las redes neuronales y que son fundamentales en las arquitecturas de transformadores que subyacen en los LLMs. Así, se reducen los cuellos de botella en el procesamiento paralelo de tokens lingüísticos. 

En el contexto de LightGen, su capacidad para variar dimensiones de red a velocidad lumínica podría adaptarse a los requerimientos dinámicos de los LLMs, donde el escalado de parámetros —a menudo en miles de millones— exige flexibilidad y eficiencia. Esto no solo acelera la inferencia en tiempo real, crucial para aplicaciones conversacionales, sino que también hace viable el entrenamiento sostenible de modelos más grandes, mitigando la escasez de recursos computacionales que afecta al sector.

Adicionalmente, la escalabilidad de LightGen, con millones de neuronas integradas en un chip compacto, abre puertas a la implementación de modelos híbridos que combinen visión y lenguaje, como en sistemas multimodales. 

Más información divulgativa en este enlace


0 comentarios :