12/1/26
De las cosas pálidas
10/1/26
Infinite Monkeys
Infinite Monkeys es un juego que explora la famosa hipótesis de que si ponemos a un número infinito de monos a teclear al azar letras en máquinas herramientas acabarán, dándoles suficiente tiempo, de escribir alguna obra de Shakespeare. En anteriores entradas de Biblumliteraria referidas a la lingüística computacional ya vimos que matemáticamente esto es tan extremadamente improbable que puede considerarse imposible. Ha habido, incluso, pruebas prácticas como la descrita en este artículo.
El programa Infinite Monkeys se presenta como un juego deliberadamente absurdo que convierte esa conjetura citada en una experiencia interactiva y prolongada. El objetivo no es ganar en el sentido tradicional, sino presenciar —y sufrir— el proceso: conseguir que un grupo de monos escriba, letra a letra y de forma completamente aleatoria, la primera escena del primer acto de El rey Lear de Shakespeare. Cada acierto individual, cada letra que por puro azar coincide con la correcta, es recompensado con dinero virtual, que el jugador puede reinvertir en contratar más monos o en motivarlos para que escriban más rápido mediante pósters inspiradores o árboles de plátanos. Incluso la música y los efectos de sonido pueden activarse o desactivarse, como un pequeño alivio mientras se espera lo inevitablemente lento.
El jugador no puede pensar que va a ganar el juego pero sí desesperarse viendo que los aciertos son mínimos, si los hay. No es que no pueda escribirse El Rey Lear, es que ni siquiera se forma una frase. El sistema de fuerza bruta que pretende defender la hipótesis de los monos infinitos necesitaría también un tiempo infinito pero además elevado a una potencia (matemáticamente hablando no es lo mismo infinito que infinito al cubo, por ejemplo).
Para ilustrar la magnitud del problema, el programa se apoya en cifras concretas. La primera escena de El rey Lear utilizada en el juego tiene más de catorce mil caracteres. Al simplificar el texto —unificando espacios, usando solo mayúsculas e incluyendo un conjunto limitado de signos de puntuación— se trabaja con un alfabeto de 34 símbolos posibles. El número de combinaciones distintas que pueden formarse con esa longitud es 34 elevado a 14.326, una cifra tan descomunal que supera con creces cualquier magnitud física conocida, incluso el número de átomos del universo. Entre todas esas combinaciones, solo una es la correcta. La probabilidad de obtenerla al azar es tan pequeña que el experimento solo tiene sentido si se concede a los monos tiempo infinito… y quizá inmortalidad. Ante esta perspectiva, el juego opta por un compromiso práctico. En lugar de esperar a que un único mono escriba el texto completo de una sola vez, los monos trabajan colectivamente y los errores simplemente se ignoran. El texto se construye letra a letra, validando cada acierto de inmediato. Desde un punto de vista estricto, esto “hace trampa” respecto al experimento original, pero es una trampa necesaria. Esperar hasta el fin del universo no resulta especialmente divertido; en cambio, observar a un ejército de monos aporreando teclas, avanzando de manera ridículamente lenta pero visible, convierte una abstracción matemática en una experiencia tangible, irónica y, sobre todo, memorable.
Puede descargarse desde este enlace.
7/1/26
Copy is all you need
Los modelos tradicionales de generación de texto funcionan seleccionando palabras secuencialmente de un vocabulario fijo y predeterminado. Sin embargo, investigadores de Tencent AI Lab y el Instituto de Tecnología de Beijing propusieron a finales del 2023 una aproximación radicalmente diferente que reformula este proceso como una serie de operaciones de copiar y pegar fragmentos de texto desde colecciones existentes. Esta metodología, implementada en un modelo llamado COG (Copy-Generator), representa un cambio de paradigma en cómo concebimos la generación automática de lenguaje.
La idea fundamental es que, en lugar de predecir el siguiente token de un vocabulario estático, el modelo busca y recupera frases completas de contextos específicos dentro de documentos existentes. Estas frases pueden ser de longitud variable, desde palabras individuales hasta expresiones multi-palabra, y lo crucial es que cada frase mantiene su representación contextualizada original. El sistema construye una tabla de frases mediante codificadores que computan representaciones vectoriales para cada segmento de texto, indexándolas usando herramientas eficientes de búsqueda vectorial. Durante la generación, en cada paso de decodificación, el modelo busca la frase más adecuada de esta colección y la añade al prefijo actual.
Esta aproximación ofrece ventajas significativas sobre los modelos neuronales tradicionales. Primero, al seleccionar frases en contextos específicos en lugar de tokens aislados, permite representaciones más precisas y selecciones más acertadas. Segundo, facilita la adaptación sin entrenamiento a nuevas fuentes de conocimiento, simplemente actualizando la colección de textos de manera modular, lo que beneficia escenarios como la adaptación a dominios específicos. Tercero, al generar múltiples tokens simultáneamente en un solo paso, reduce el número total de pasos de decodificación, mejorando la eficiencia de inferencia.
Los experimentos realizados sobre el benchmark WikiText-103 demostraron que COG supera sustancialmente a los sistemas estándar tanto en métricas automáticas como en evaluación humana. Específicamente, obtuvo una puntuación MAUVE de 26.14 frente a 23.43 del mejor baseline, y en preferencia humana alcanzó un 48% frente al 28% del modelo Transformer tradicional. Incluso usando búsqueda codiciosa (greedy search), que típicamente causa problemas de degeneración, COG superó a Transformers con nucleus sampling, demostrando mayor robustez. La eficiencia de inferencia resultó comparable a modelos autorregresivos a nivel de token gracias a la reducción de pasos de decodificación, ya que las frases copiadas frecuentemente contienen múltiples tokens.
El modelo también demostró capacidades excepcionales de adaptación a dominios específicos sin entrenamiento adicional. Al cambiar la colección de textos de WikiText-103 a Law-MT, un corpus legal, COG superó incluso a modelos Transformer específicamente entrenados en ese dominio. Además, al escalar la colección a un corpus más grande, el modelo obtuvo mejoras adicionales sin ningún entrenamiento extra, sugiriendo que puede entrenarse con corpus pequeños pero aprovechar información de colecciones mayores de forma plug-and-play.
La arquitectura de COG consta de tres componentes principales: un codificador de prefijos basado en Transformer con atención causal, un codificador de frases que usa BERT bidireccional para generar representaciones contextualizadas, y embeddings de tokens independientes del contexto que permiten generación de tokens individuales cuando no hay frases adecuadas disponibles. El entrenamiento combina una pérdida para predicción de frases usando InfoNCE con negativos en el batch, y una pérdida autorregresiva estándar a nivel de token. Este enfoque innovador abre nuevas posibilidades para la generación de texto, demostrando que copiar inteligentemente puede ser tan poderoso como generar desde cero.
La fundamentación matemática de COG reformula la generación de texto reemplazando la distribución softmax tradicional pθ(xᵢ = w|x<ᵢ) = exp(vw · hᵢ) / Σw'∈V exp(vw' · hᵢ) sobre un vocabulario fijo V por una distribución sobre frases contextualizadas p(k|x<ᵢ) ∝ exp(pk · qᵢ), donde pk es la representación de la frase k y qᵢ la del prefijo, estableciendo un espacio vectorial compartido donde el producto punto mide la idoneidad semántica. El codificador de frases logra eficiencia mediante una arquitectura que primero genera representaciones bidireccionales D̂ ∈ ℝᵐˣᵈᵗ para un documento, luego aplica dos MLPs produciendo Dₛₜₐᵣₜ y Dₑₙᵈ en ℝᵐˣ⁽ᵈ/²⁾, y construye cualquier frase como PhraseEncoder(s, e, D) = [Dₛₜₐᵣₜ[s]; Dₑₙᵈ[e]], almacenando solo 2m vectores en lugar de O(m²) representaciones de frases.
El entrenamiento utiliza la pérdida contrastiva InfoNCE: Lₚ = -1/n Σₖ log [exp(qₖ · pₖ) / (Σₚ'∈Pₖ exp(qₖ · pₚ') + Σw∈V exp(qₖ · vw))], que maximiza la similitud entre prefijos y sus continuaciones correctas mientras las distingue de negativos duros del mismo documento, complementada con la pérdida autorregresiva estándar Lₜ para mantener generación a nivel de token, combinándose como L = Lₚ + Lₜ. La inferencia enfrenta el problema de Maximum Inner Product Search sobre miles de millones de frases mediante una estrategia coarse-to-fine: primero recupera K≈1024 documentos relevantes usando DPR y FAISS, luego busca exhaustivamente sobre sus frases el máximo k* = argmaxₖ∈P' (pk · qᵢ). La decodificación puede ser codiciosa seleccionando directamente el máximo, o mediante nucleus sampling convirtiendo puntuaciones en probabilidades p(k|qₜ) = exp(pk · qₜ) / Σₖ' exp(pₖ' · qₜ) y muestreando del subconjunto con masa acumulada p=0.95. El algoritmo de segmentación para entrenamiento implementa forward maximum matching, buscando en cada posición el prefijo más largo que aparezca en otros documentos para cortarlo como frase, aproximando búsqueda exhaustiva O(N·m²) a O(K·m²) mediante restricción a documentos similares, mientras la evaluación emplea MAUVE que modela distribuciones como mezclas gaussianas en espacio latente y computa divergencia de frontera, junto con métricas de repetición Rep-n y diversidad que capturan degeneración y riqueza léxica mediante productos de unicidad de n-gramas.Claude es IA y puede cometer errores. Por favor, verifica nuevamente las respuestas.
El artículo puede leerse en este enlace.
5/1/26
Generación de poemas
3/1/26
Hengki Koentjoro
Hengki Koentjoro es un fotográfo excepcional y de mucho talento.
Hengki Koentjoro es un fotógrafo indonesio de renombre internacional, cuya obra se ha consolidado como una de las expresiones más evocadoras de la fotografía en blanco y negro contemporánea. Nacido en Semarang, Java Central, Indonesia, en 1963, Koentjoro encontró su primera cámara a los once años, un regalo que encendió una pasión profunda por capturar el mundo a través del lente. La obra de Hengki Koentjoro es un testimonio del poder expresivo del blanco y negro: logra transformar la naturaleza y las experiencias humanas en imágenes que invitan a la contemplación, a la introspección y a encontrar significado en la simplicidad misma. Su visión es a la vez atemporal y profundamente emocional, un puente entre luz y sombra donde el espectador se detiene a reencontrarse con lo esencial.
Su trayectoria artística formal comenzó en el Brooks Institute of Photography en Santa Bárbara, California, donde se especializó no sólo en producción de video, sino también en el arte de la fotografía en blanco y negro, técnica que definiría su práctica artística a lo largo de toda su vida. A su regreso a Indonesia, Koentjoro se estableció en Yakarta, trabajando como videógrafo y editor independiente para documentales de naturaleza y perfiles corporativos, mientras desarrollaba paralelamente su vocación por la fotografía artística en blanco y negro.
La obra de Koentjoro va mucho más allá de la simple documentación. Explora el dominio espectral entre luz y sombra, revelando una paleta infinita de grises que transforma escenas naturales en meditaciones visuales profundas, buscando capturar la esencia espiritual de la naturaleza, ya sea en bosques, montañas, océanos o paisajes urbanos, y celebra la complejidad dentro de lo minimalista. La influencia del minimalismo y de la estética Zen es evidente en muchas de sus imágenes: el espacio negativo toma tanto protagonismo como el sujeto, creando imágenes que parecen silenciosas pero resonantes, donde la naturaleza se presenta en toda su profundidad meditativa. Koentjoro reduce la escena a los elementos estrictamente necesarios, buscando composiciones limpias y equilibradas. A menudo utiliza espacios negativos amplios, que refuerzan la sensación de soledad, vastedad o quietud. Este vacío visual no es ausencia, sino un recurso activo que permite que el sujeto respire y adquiera mayor fuerza simbólica.
Sus preferencias son los paisajes montañosos y neblinosos de Java y otras regiones de Indonesia, donde las formas de la tierra y el cielo parecen entrelazarse en un diálogo silencioso. También, las escenas costeras y marinas, explorando la textura y el movimiento del agua como símbolo de vida, fluidez y esencia. Incluso ha hecho series de fotografías bajo el agua (como en su serie Monohydra), donde la ausencia de color resalta formas, líneas y atmósferas únicas, lejos de una documentación convencional de biodiversidad y más cerca de una expresión artística introspectiva. Otros temas que ha explorado son las series documentales sobre comunidades, paisajes rurales y escenas introspectivas que combinan humanidad y naturaleza.
Técnicamente, logra un control excepcional de la gama tonal, trabajando una amplia gradación de grises, evitando contrastes abruptos salvo cuando la composición lo exige. Sus imágenes se caracterizan por transiciones suaves entre luces y sombras, creando una sensación envolvente y casi etérea. La luz raramente es dura; suele ser difusa, filtrada por niebla, nubes o agua, lo que refuerza el carácter introspectivo de sus paisajes. Este tratamiento tonal contribuye a una atmósfera silenciosa y contemplativa, donde la imagen parece suspendida en el tiempo. La luz no actúa como protagonista, sino como un elemento modelador que revela lentamente la forma, del mismo modo que un escultor descubre una figura dentro del bloque de piedra. Muchas de sus imágenes se realizan con tiempos de exposición prolongados, especialmente en escenas marinas o con niebla, lo que suaviza el movimiento del agua o de las nubes y aporta una cualidad onírica a la imagen. Este recurso técnico no es un artificio, sino una extensión de su búsqueda estética: transformar lo efímero en algo sereno y duradero. El procesamiento digital —o en etapas anteriores, el trabajo en cuarto oscuro— es cuidadoso y contenido. Koentjoro evita manipulaciones excesivas; su edición está orientada a refinar la intención original, enfatizando texturas, profundidades y contrastes internos sin romper la naturalidad de la escena.
La fotografía de Koentjoro ha sido ampliamente premiada y exhibida en prestigiosos concursos y espacios internacionales: Ha publicado varias monografías y colaborado con editoriales internacionales, presentando sus series más significativas como libros de arte.
Se puede disfrutar de su obra en estos enlaces: su página, Facebook, Instagram.
2/1/26
GPTMB 2026
Se anuncia el Congreso The Third International Conference on Generative Pre-trained Transformer Models and Beyond (GPTMB 2026= que se celebrará en Niza del 5 al 9 de julio de este 2026.
En este momento, está abierta la convocatoria para presentar ponencias para que sean evaluadas por el comité de selección. El plazo estará activo hasta el 14 de marzo. Habrá sesiones presenciales y on-line.
Los trabajos que se admiten a revisión deben versar sobre:
Fundamentos de la IA generativa
Modelos transformadores generativos pre-entrenados (GPT)
Modelos basados en transformadores y LLM (Large Language Models, Modelos de Lenguaje de Gran Tamaño)
Combinación de modelos GPT y modelos de aprendizaje por refuerzo
Creatividad y originalidad en herramientas basadas en GPT
Taxonomía del entrenamiento de LLM basado en contexto
Aprendizaje profundo y LLM
Generación aumentada por recuperación (RAG) y ajuste fino (fine-tuning) de LLM
LLM y aprendizaje por refuerzo con retroalimentación humana (RLHF)
LLM (autorregresivos, aumentados por recuperación, autoencoders, aprendizaje por refuerzo, etc.)
Recursos computacionales para el entrenamiento de LLM y para aplicaciones basadas en LLM
LLM
Taxonomía de los Modelos de Lenguaje de Gran Tamaño (LLM)
Características del modelo (arquitectura, tamaño, datos de entrenamiento y duración)
Construcción, entrenamiento y ajuste fino de LLM
Rendimiento (precisión, latencia, escalabilidad)
Capacidades (generación de contenido, traducción, interacción)
Dominio (médico, legal, financiero, educativo, etc.)
Ética y seguridad (sesgo, equidad, filtrado, explicabilidad)
Aspectos legales (privacidad de datos, exfiltración de datos, derechos de autor, licencias)
Desafíos (integraciones, desajustes, sobreajuste, sub-ajuste, alucinaciones, interpretabilidad, mitigación de sesgos, ética)
Herramientas y aplicaciones basadas en LLM
Requisitos exigentes para acciones básicas y principios fundamentales
Métodos para la selección optimizada del tamaño y la complejidad del modelo
Mecanismos de ajuste fino y personalización
Alineación de interacciones humanas y acciones
Capacidades de entrada/salida multimodales (texto con datos visuales, de audio y otros tipos)
Aprendizaje adaptativo o continuo (optimización del entrenamiento, conciencia del contexto)
Amplio rango de idiomas y dialectos, incluida la expansión regional
Escalabilidad, comprensibilidad y explicabilidad
Herramientas para desarrollo de software, planificación, flujos de trabajo, programación, etc.
Aplicaciones en robótica, sistemas autónomos y objetivos en movimiento
Aplicaciones interdisciplinarias (finanzas, salud, tecnología, etc.)
Aplicaciones para el descubrimiento y la investigación científica avanzada
Requisitos computacionales y consumo energético
Técnicas eficientes (cuantización, poda, etc.)
Fiabilidad y seguridad de las aplicaciones basadas en LLM
Cocreación, código abierto y accesibilidad global
Consideraciones éticas (mitigación de sesgos, equidad, responsabilidad)
Modelos de lenguaje pequeños y modelos de lenguaje diminutos
Arquitectura y principios de diseño específicos de los modelos de lenguaje pequeños
Modelos de lenguaje diminutos para smartphones, dispositivos IoT, dispositivos de borde (edge) y sistemas embebidos
Herramientas para modelos de lenguaje pequeños (DistilBERT, TinyBERT, MiniLM, etc.)
Destilación de conocimiento, cuantización, baja latencia y optimización de recursos
Eficiencia energética para FPGAs y ASICs especializados en el despliegue de modelos
Modelos de lenguaje diminutos para aplicaciones de traducción en tiempo real y chatbots móviles
Lenguajes diminutos y aprendizaje federado para la privacidad
Modelos de lenguaje pequeños con visión para aplicaciones multimodales
Consideraciones de hardware (energía, cuantización, poda, etc.)
Modelos de lenguaje diminutos y aceleradores de hardware (GPU, TPU y ASICs personalizados para ML)
Problemas críticos relacionados con los datos de entrada
Conjuntos de datos: exactitud, granularidad, precisión, falsos/verdaderos negativos y positivos
Datos visibles frente a invisibles (privados, personalizados)
Extrapolación de datos
Sesgos de salida y conjuntos de datos sesgados
Sensibilidad y especificidad de los conjuntos de datos
Información falsa e incorrecta
Datos volátiles
Datos sensibles al tiempo
Problemas críticos en el procesamiento
Veracidad del proceso
Comprensibilidad, interpretabilidad y explicabilidad
Detección de sesgos e incorrecciones
Incorporación de retroalimentación interactiva
Incorporación de correcciones
Generación aumentada por recuperación (RAG) para la entrada de LLM
RLHF para el ajuste fino de la salida de LLM
Calidad de la salida
Sesgos en la salida y conjuntos de datos sesgados
Sensibilidad y especificidad de los conjuntos de datos
Salida consciente del contexto
Resumen de texto fino/grueso
Calidad de la preevaluación de datos (obsoletos, incompletos, falsos, ruidosos, etc.)
Validación de la salida
Detección y explicación de alucinaciones
Detección de resúmenes sesgados o incorrectos antes de su difusión
Educación y responsabilidad académica
Revisión de planes de estudio para integrar herramientas y metodologías basadas en IA
Concienciación del usuario sobre la confiabilidad de las salidas
Normas sobre infracción de derechos de autor
Herramientas contra el plagio y el autoplagio
Infracción de propiedad intelectual
Mecanismos para la verificación de referencias
Gestión de autorreferencias ocultas
Regulaciones y limitaciones
Regulaciones (licencias, pruebas, umbrales de cumplimiento, innovaciones descentralizadas/centralizadas)
Mitigación de los riesgos sociales de los modelos GPT
Captura de emociones y sensibilidad
Falta de memoria personalizada (individual) y recuerdos (hechos pasados)
Falta de pensamiento personalizado instantáneo (resúmenes personalizados)
Riesgo de decisiones basadas en GPTM
Conciencia de la IA
Descalificación inducida por la IA
Casos de estudio con análisis y pruebas de aplicaciones de IA
Lecciones aprendidas con herramientas existentes (ChatGPT, Bard AI, ChatSonic, etc.)
Analítica predictiva en salud
Diagnóstico médico
Imágenes médicas
Farmacología
Terapia basada en IA
Finanzas basadas en IA
Planificación basada en IA
Toma de decisiones basada en IA
Control de sistemas basado en IA
Educación basada en IA
Ciberseguridad basada en IA
Más información en este enlace.
30/12/25
L’autre dans le miroir : Littérature jeunesse et numérique, les nouveaux outils de la rencontre ?
Se anuncia para el próximo año el coloquio titulado L’autre dans le miroir : Littérature jeunesse et numérique, les nouveaux outils de la rencontre? que tendrá lugar en Burdeos y Toulouse los días 4 y 5 de marzo.
Este evento se inscribe en la continuidad de encuentros previos dedicados a la interculturalidad y a las representaciones de las migraciones en la literatura juvenil, y propone reflexionar sobre las nuevas formas de encuentro con el otro en un contexto marcado por la digitalización y la diversidad cultural.
El coloquio se estructura en dos jornadas temáticas.
La primera, titulada “Encontrar al otro en la era digital”, tendrá lugar en Burdeos y se centrará en el impacto de las tecnologías digitales —especialmente internet y las redes sociales— en los procesos de mediación cultural y literaria. Partiendo de la idea de que la distancia geográfica se ha reducido gracias a la conectividad digital, la jornada se pregunta si lo mismo ocurre con la distancia cultural. Se abordarán las transformaciones de las prácticas de lectura y escritura, así como la redefinición de la relación entre autores y lectores en entornos digitales participativos.
En este marco, el primer eje analiza el papel de las redes sociales literarias (#BookTok, #Bookstagram, blogs o foros) en la visibilización de obras, la prescripción lectora y la construcción de comunidades interpretativas. La literatura juvenil aparece como un campo privilegiado de estudio, especialmente a través de obras que tratan temas como el exilio, la migración, las fronteras y la hospitalidad, y cuya circulación digital amplifica su potencial intercultural. El segundo eje de esta primera jornada se centra en la pedagogía y las prácticas interculturales digitales. Se examina cómo las plataformas digitales influyen en la construcción identitaria de jóvenes y adultos, y cómo pueden actuar como mediadores en el encuentro con el otro dentro y fuera del aula.
La segunda jornada, titulada “Del otro lado del espejo”, se celebrará en Toulouse y se enfocará en la literatura juvenil como herramienta de construcción identitaria. Inspirándose en la metáfora del espejo, se concibe al otro como un reflejo que permite al lector descubrirse a sí mismo. La literatura juvenil es presentada como un instrumento didáctico fundamental para fomentar el reconocimiento de la alteridad y el diálogo intercultural desde la infancia. En este contexto, el tercer eje aborda las pedagogías de la encuentro, subrayando la importancia de la reciprocidad, la creación artística y las experiencias compartidas para generar procesos educativos transformadores. Se exploran también iniciativas asociativas y colaborativas que utilizan el intercambio de historias como medio para fortalecer la empatía y la comprensión mutua. Por fin, el cuarto eje se dedica a la relación entre literatura juvenil y lenguas, con especial atención al plurilingüismo y a las lenguas minoritarias. Se analizará cómo la lengua actúa como herramienta cultural y como espacio de construcción del otro y de uno mismo. A través de álbumes bilingües, talleres de escritura plurilingüe y propuestas musicales, se destacarán estrategias para convertir el aula en un lugar de hospitalidad lingüística y cultural.
27/12/25
My boyfriend came back from the war. After dinner they left us alone
My boyfriend came back from the war. After dinner they left us alone, de de Olia Lialina, es un trabajo literario digital de 1996 y está considerado una de las primeras piezas fundamentales del net art. La obra se presenta como una experiencia interactiva basada en hipervínculos: el usuario comienza en una pantalla negra con un texto inicial y, al hacer clic, accede a una serie de ventanas fragmentadas donde se desarrolla una conversación entre una pareja reunida tras la guerra. El espectador decide qué enlaces seguir, lo que determina cómo se revela el diálogo y cuándo ciertas partes dejan de ser activas.
La historia gira en torno a conflictos emocionales como la desconfianza, la fidelidad, el compromiso y la distancia afectiva causada por la guerra. El formato fragmentado y la estética sobria refuerzan el sentimiento de soledad, duda y tensión en la relación. La interactividad no es solo técnica, sino también simbólica: las decisiones del usuario reflejan la indecisión y el peso emocional de la conversación entre los personajes.
Las imágenes son en blanco y negro que, por un lado, era lo que mejor podía hacerse con los ordenadores de hace 30 años y, por otro, se adecúa muy bien a la atmósfera de la narración.
Puede accederse desde este enlace.
25/12/25
Chip fotónico puede permitir un rendimiento mucho mayor en los LLMs
El desarrollo del chip óptico LightGen puede representar un avance significativo en la computación fotónica aplicada a la inteligencia artificial generativa, particularmente en tareas de visión inteligente a gran escala.
Publicado en la revista Science con el título "All-optical synthesis chip for large-scale intelligent semantic vision generation", este trabajo liderado por Yitong Chen, Xinyue Sun, Longtao Tan, Yizhou Jiang, Yin Zhou, Wenjun Zhang y Guangtao Zhai, de las universidades de Shanghai Jiao Tong y es en China, introduce un chip completamente óptico que integra más de dos millones de neuronas fotónicas en una estructura tridimensional. Es esta estructura 3D en la posición de las "neuronas" la que distingue a este nuevo chip de los habituales dispositivos fotónicos que tienen sus circuitos grabados en 2D. Por así decirlo, pasamos de un diseño plano de puertas fotónicas y conexiones planas a un diseño en 3D que permite un procesamiento paralelo, con los nodos operando simultáneamente en vez de secuencialmente.
Como es bien sabido, los circuitos fotónicos permiten mayor velocidad y menor consumo que los basados en silicio. Los primeros mueven fotones a la velocidad de la luz mientras que los segundos deben mover electrones.
La innovación clave radica en la integración de un espacio latente óptico que permite variar las dimensiones de la red neuronal a la velocidad de la luz, evitando conversiones dimensionales que consumen tiempo en sistemas fotónicos anteriores. Además, incorpora algoritmos de entrenamiento basados en técnicas bayesianas, independientes de los datos de referencia (ground-truth), lo que facilita el manejo de modelos generativos complejos sin depender de conjuntos de datos etiquetados exhaustivos. Experimentalmente, el chip ha demostrado capacidades en la generación de imágenes semánticas de alta resolución, eliminación de ruido, transferencia de estilos, creación de escenas tridimensionales y manipulación de imágenes coloridas complejas. Por ejemplo, puede procesar imágenes enteras de una sola vez gracias a su estructura en capas apiladas, superando el enfoque de de procesar la información poco a poco, por fragmentos, que se usa en otros chips fotónicos planos, lo que a menudo conlleva el que los fragmentos independientemente procesados no encajan al final con una menor calidad del resultado. En pruebas realizadas, LightGen generó imágenes de animales y paisajes naturales, así como videos cortos en alta definición, con un rendimiento que iguala o supera a sistemas líderes como Stable Diffusion y StyleGAN.
En términos de rendimiento, el chip ofrece una velocidad de cómputo de extremo a extremo y una eficiencia energética que superan en más de dos órdenes de magnitud a los chips electrónicos más modernos, como el NVIDIA A100. Esto se traduce en un aumento de 100 veces en velocidad y eficiencia energética, junto con una densidad computacional 100 veces mayor en el mismo espacio físico. Estas métricas se obtuvieron en tareas que tradicionalmente demandan recursos masivos, como la generación de contenido visual de alta complejidad, donde los chips convencionales tienen limitaciones con tareas de computación intensiva. La ausencia de conversiones electro-ópticas reduce las latencias y el consumo de energía, ya que los fotones viajan sin resistencia, generan menos calor y permiten un paralelismo masivo inherente a la óptica.
Aunque el enfoque principal de LightGen está en aplicaciones de visión generativa, sus ventajas se extienden al funcionamiento de los grandes modelos de lenguaje (LLMs), que también forman parte del ecosistema de IA generativa a gran escala. Los LLMs, como GPT o Llama, requieren un poder computacional enorme tanto para la fase de entrenamiento como para la de generación de diálogo, consumiendo cantidades ingentes de electricidad y generando emisiones de carbono significativas. La computación óptica, como la aquí citada, aprovecha la velocidad inherente de la luz para acelerar las operaciones matriciales en las que se basan las matemáticas que hacen funcionar las redes neuronales y que son fundamentales en las arquitecturas de transformadores que subyacen en los LLMs. Así, se reducen los cuellos de botella en el procesamiento paralelo de tokens lingüísticos.
En el contexto de LightGen, su capacidad para variar dimensiones de red a velocidad lumínica podría adaptarse a los requerimientos dinámicos de los LLMs, donde el escalado de parámetros —a menudo en miles de millones— exige flexibilidad y eficiencia. Esto no solo acelera la inferencia en tiempo real, crucial para aplicaciones conversacionales, sino que también hace viable el entrenamiento sostenible de modelos más grandes, mitigando la escasez de recursos computacionales que afecta al sector.
Adicionalmente, la escalabilidad de LightGen, con millones de neuronas integradas en un chip compacto, abre puertas a la implementación de modelos híbridos que combinen visión y lenguaje, como en sistemas multimodales.
Más información divulgativa en este enlace.
24/12/25
IA Titans
Titans es una nueva arquitectura de inteligencia artificial desarrollada por Google Research diseñada para abordar una de las mayores limitaciones de los modelos actuales: la memoria y el aprendizaje continuo. En lugar de funcionar como modelos convencionales (que solo “recuerdan” durante la sesión y olvidan al terminar), Titans introduce un módulo de memoria a largo plazo que puede aprender y actualizarse en tiempo real.
Lo esencial de Titans es su capacidad para “memorizar mientras opera”, es decir, aprender y recordar nueva información sin necesidad de entrenamiento tradicional fuera de línea (fine-tuning). Esto implica que el modelo puede adaptarse a contextos dinámicos y retener información relevante para uso futuro, algo que los modelos basados en transformers no pueden hacer de forma nativa.
Los modelos de lenguaje convencionales como los Transformers (por ejemplo, GPT, Gemini, etc.) tienen una ventana de contexto finita: no pueden manejar más de una cierta cantidad de tokens (palabras, frases o datos) a la vez. Cuando se excede esa ventana, los datos anteriores se olvidan o se vuelven inaccesibles, limitando tareas complejas como:
- Comprender textos muy largos (libros, contratos extensos, investigaciones científicas),
- Recordar conversaciones pasadas con coherencia,
- Integrar aportes contextuales de múltiples sesiones,
- Aprender de datos dinámicos sin reentrenar de cero.
Este problema de "olvido" de lo que ya se hablado se denomina “catástrofe del olvido” en el campo del aprendizaje automático: el modelo aprende nuevos datos pero pierde habilidades o conocimiento previamente adquirido. Titans busca mitigar o superar esta limitación, permitiendo al modelo tener una memoria persistente que evoluciona con el tiempo sin perder lo aprendido previamente.
Este nuevo de modelo, por tanto, surge como respuesta directa a esa limitación estructural citada, una de las más persistentes en los grandes modelos de lenguaje contemporáneos: la incapacidad de mantener y gestionar información relevante a muy largo plazo sin incurrir en costes computacionales prohibitivos o en mecanismos externos de recuperación de información. Desde la consolidación del Transformer como arquitectura dominante, la atención ha demostrado ser una herramienta extremadamente eficaz para modelar dependencias locales y de medio alcance, pero su complejidad cuadrática con respecto al tamaño del contexto impone un límite práctico al número de tokens que pueden procesarse de forma directa. Aunque diversas variantes —como los Transformers lineales, los modelos recurrentes modernos o los enfoques basados en segmentación— han intentado aliviar este problema, el artículo que introduce Titans parte de la premisa de que estas soluciones siguen tratando la memoria como un recurso limitado, estático o excesivamente simplificado, incapaz de capturar la riqueza estructural de contextos largos y cambiantes
IA Titans no debe entenderse como un único modelo concreto, sino como una familia de arquitecturas profundas que incorporan explícitamente un módulo de memoria neuronal a largo plazo entrenado para aprender, olvidar y recuperar información durante la inferencia. Esta idea, que puede describirse como “learning to memorize at test time”, representa un cambio conceptual importante. En lugar de asumir que el conocimiento del modelo queda congelado tras el entrenamiento, Titans introduce un componente que adapta sus parámetros internos mientras procesa la secuencia, de forma controlada y regulada, actuando como un meta-aprendiz que optimiza su comportamiento de memoria en tiempo real. En este sentido, Titans no debe entenderse como un competidor directo de modelos como Gemini, GPT o Claude, sino más bien como una arquitectura que puede servir de base o complemento para ese tipo de modelos. La idea central es introducir un sistema de memoria neuronal a largo plazo que funcione de manera análoga, aunque no idéntica, a la memoria humana.
Desde un punto de vista técnico, Titans combina varios tipos de memoria que operan a diferentes escalas temporales. La memoria de corto plazo cumple una función similar a la atención tradicional de los transformers, permitiendo un razonamiento preciso y detallado sobre el contexto inmediato. Esta parte del sistema es altamente flexible y sensible a los matices del lenguaje, pero también es volátil y limitada. A esta capa se le añade una memoria de largo plazo basada en redes neuronales profundas, que no se limita a guardar vectores estáticos, sino que aprende activamente a representar patrones, regularidades y conocimientos relevantes a lo largo del tiempo. Existe además una memoria más estable o persistente, que conserva información estructural fundamental, como conocimientos generales del dominio o reglas básicas, y que no se modifica fácilmente durante la inferencia. La interacción entre estas capas permite que el modelo mantenga coherencia a corto plazo mientras acumula experiencia a largo plazo.
La noción de “learns while it runs” no implica reentrenamiento completo ni ajuste global del modelo, sino la actualización de un módulo específico de memoria neuronal mediante un proceso inspirado en el aprendizaje online y en los mecanismos cognitivos humanos. Se hace la hipótesis de que los eventos inesperados o “sorprendentes” son más memorables, y traduce esta idea a un criterio matemático concreto: la sorpresa de una entrada se mide a partir del gradiente de una función de pérdida asociativa con respecto a los datos de entrada. Cuanto mayor es este gradiente, mayor es la discrepancia entre lo esperado y lo observado, y mayor es la probabilidad de que dicha información se incorpore a la memoria a largo plazo. Este enfoque permite que la memoria no almacene indiscriminadamente todo el flujo de tokens, sino que priorice aquellos fragmentos que aportan información nueva o relevante, reduciendo así el riesgo de saturación.
Desde un punto de vista técnico, la memoria de Titans no es un simple vector ni una matriz fija, como ocurre en muchos modelos recurrentes lineales o en arquitecturas de memoria externas. Se trata de una red neuronal profunda, típicamente un MLP con al menos dos capas, cuya expresividad supera la de los modelos lineales y permite capturar relaciones no lineales en el historial de datos. Al parecer, esta profundidad adicional es clave para representar dependencias complejas en contextos largos, algo que los mecanismos de memoria más simples no consiguen de forma efectiva
Mas información en este artículo técnico y en este sitio web.
22/12/25
Si yo fuese Dios
Si yo fuese Dios
y tuviese el secreto,
haría un ser exacto a ti;
lo probaría
(a la manera de los panaderos
cuando prueban el pan, es decir:
con la boca),
y si ese sabor fuese
igual al tuyo, o sea
tu mismo olor, y tu manera
de sonreír,
y de guardar silencio,
y de estrechar mi mano estrictamente,
y de besarnos sin hacernos daño
—de esto sí estoy seguro: pongo
tanta atención cuando te beso—;
entonces,
si yo fuese Dios,
podría repetirte y repetirte,
siempre la misma y siempre diferente,
sin cansarme jamás del juego idéntico,
sin desdeñar tampoco la que fuiste
por la que ibas a ser dentro de nada;
ya no sé si me explico, pero quiero
aclarar que si yo fuese
Dios, haría
lo posible por ser Ángel González
para quererte tal como te quiero,
para aguardar con calma
a que te crees tú misma cada día
a que sorprendas todas las mañanas
la luz recién nacida con tu propia
luz, y corras
la cortina impalpable que separa
el sueño de la vida,
resucitándome con tu palabra,
Lázaro alegre,
yo,
mojado todavía
de sombras y pereza,
sorprendido y absorto
en la contemplación de todo aquello
que, en unión de mí mismo,
recuperas y salvas, mueves, dejas
abandonado cuando —luego— callas...
(Escucho tu silencio.
Oigo
constelaciones: existes.
Creo en ti.
Eres.
Me basta).














