12/1/26

De las cosas pálidas

 

En De las cosas pálidas (La Bella Varsovia, 2025), Alberto Santamaría continúa una línea de trabajo muy definida dentro de su trayectoria: la poesía entendida como un espacio de pensamiento, pero también como una práctica situada, consciente de sus límites materiales, lingüísticos y perceptivos. No se trata de poesía que aspire a tratar grandes problemas, sino de uno que examina con atención aquello que suele quedar en segundo plano: lo borroso, lo incompleto, lo que apenas se sostiene en la mirada, lo nimio. Ahí se sitúa el territorio del libro, en espacios desplazados que no son solo geográficos, sino también emocionales y mentales: márgenes de la memoria, zonas opacas del afecto, lugares donde el amor o el recuerdo ya no son plenamente accesibles.

El poemario dialoga de manera constante con preguntas que rayan la filosofía: ¿hasta dónde puede llegar el lenguaje?, ¿qué implica mirar?, ¿qué se pierde cuando se intenta contar una experiencia? Estas cuestiones no aparecen formuladas de modo abstracto, sino encarnadas en escenas, objetos, gestos y reflexiones breves que se abren paso entre lo cotidiano y lo conceptual. La escritura avanza con cautela, consciente de que toda afirmación es provisional. 

De las cosas pálidas puede abordarse como un recorrido por lo imprevisto, una constelación dispersa sin jerarquías claras o incluso como una reunión de restos a los que nadie presta atención. Sobre ese fondo fragmentario insiste una idea que vuelve una y otra vez: la importancia de estar. No como consigna vacía, sino como aceptación de una presencia siempre inestable, ligada a un tiempo que se escapa mientras ocurre. El libro asume ese presente frágil como único lugar posible desde el que pensar y actuar, sin promesas de trascendencia ni refugios idealizados.

Santamaría construye una dicción reflexiva, irregular, a ratos entrecortada, que combina recogimiento y distancia crítica. La ironía, leve pero persistente, impide que el tono se cierre sobre sí mismo y lo mantiene abierto a la ambigüedad. Todo ello genera una atmósfera reconocible: los poemas parecen escritos desde un tiempo suspendido, ese momento indefinido en el que la actividad se detiene y solo queda observar. Como si la escena fuera siempre la misma: una tarde apagada en la periferia, cuando ya no ocurre nada y, precisamente por eso, todo puede ser pensado.

Uno de los logros del libro es la integración de una sensibilidad crítica hacia el mundo contemporáneo sin convertir el poema en un mitin La dimensión social y política está presente, pero no como consigna, sino como atmósfera: una conciencia de precariedad, de desgaste y de intemperie que afecta tanto a las relaciones como a los paisajes y a los lenguajes. Aun así, el tono no deriva hacia el sarcasmo ni hacia el cinismo: hay distancia, pero también una voluntad clara de permanecer. El poema se convierte así en un lugar desde el que habitar el mundo, aunque sea de manera frágil y temporal.

A lo largo del libro se despliega, además, una reflexión continua sobre los propios mecanismos de la experiencia estética. Aparecen textos que interrogan la forma en que vemos, cómo se construyen las imágenes, qué papel juega el soporte material del poema, cómo opera la imaginación o de qué modo el error puede abrir nuevas posibilidades expresivas. Todo ello conforma una suerte de teoría implícita del arte, no sistemática, pero sí persistente, que se va revelando a medida que el lector avanza.

La escritura es depurada, con versos breves y estrofas contenidas que favorecen la concentración y el silencio. A veces esos versos parecen fragmentos de una métrica mayor desarmada, pero su fuerza reside precisamente en esa condición: piezas autosuficientes, tensas, donde cada palabra carga con un peso específico. La sencillez aparente es fruto de una elaboración rigurosa. 


10/1/26

Infinite Monkeys

 


Infinite Monkeys es un juego que explora la famosa hipótesis de que si ponemos a un número infinito de monos a teclear al azar letras en máquinas herramientas acabarán, dándoles suficiente tiempo, de escribir alguna obra de Shakespeare. En anteriores entradas de Biblumliteraria referidas a la lingüística computacional ya vimos que matemáticamente esto es tan extremadamente improbable que puede considerarse imposible. Ha habido, incluso, pruebas prácticas como la descrita en este artículo

El programa Infinite Monkeys se presenta como un juego deliberadamente absurdo que convierte esa conjetura citada en una experiencia interactiva y prolongada. El objetivo no es ganar en el sentido tradicional, sino presenciar —y sufrir— el proceso: conseguir que un grupo de monos escriba, letra a letra y de forma completamente aleatoria, la primera escena del primer acto de El rey Lear de Shakespeare. Cada acierto individual, cada letra que por puro azar coincide con la correcta, es recompensado con dinero virtual, que el jugador puede reinvertir en contratar más monos o en motivarlos para que escriban más rápido mediante pósters inspiradores o árboles de plátanos. Incluso la música y los efectos de sonido pueden activarse o desactivarse, como un pequeño alivio mientras se espera lo inevitablemente lento.

El jugador no puede pensar que va a ganar el juego pero sí desesperarse viendo que los aciertos son mínimos, si los hay. No es que no pueda escribirse El Rey Lear, es que ni siquiera se forma una frase.  El sistema de fuerza bruta que pretende defender la hipótesis de los monos infinitos necesitaría también un tiempo infinito pero además elevado a una potencia (matemáticamente hablando no es lo mismo infinito que infinito al cubo, por ejemplo). 

Para ilustrar la magnitud del problema, el programa se apoya en cifras concretas. La primera escena de El rey Lear utilizada en el juego tiene más de catorce mil caracteres. Al simplificar el texto —unificando espacios, usando solo mayúsculas e incluyendo un conjunto limitado de signos de puntuación— se trabaja con un alfabeto de 34 símbolos posibles. El número de combinaciones distintas que pueden formarse con esa longitud es 34 elevado a 14.326, una cifra tan descomunal que supera con creces cualquier magnitud física conocida, incluso el número de átomos del universo. Entre todas esas combinaciones, solo una es la correcta. La probabilidad de obtenerla al azar es tan pequeña que el experimento solo tiene sentido si se concede a los monos tiempo infinito… y quizá inmortalidad.  Ante esta perspectiva, el juego opta por un compromiso práctico. En lugar de esperar a que un único mono escriba el texto completo de una sola vez, los monos trabajan colectivamente y los errores simplemente se ignoran. El texto se construye letra a letra, validando cada acierto de inmediato. Desde un punto de vista estricto, esto “hace trampa” respecto al experimento original, pero es una trampa necesaria. Esperar hasta el fin del universo no resulta especialmente divertido; en cambio, observar a un ejército de monos aporreando teclas, avanzando de manera ridículamente lenta pero visible, convierte una abstracción matemática en una experiencia tangible, irónica y, sobre todo, memorable.

Puede descargarse desde este enlace.


7/1/26

Copy is all you need

 


Los modelos tradicionales de generación de texto funcionan seleccionando palabras secuencialmente de un vocabulario fijo y predeterminado. Sin embargo, investigadores de Tencent AI Lab y el Instituto de Tecnología de Beijing propusieron a finales del 2023 una aproximación radicalmente diferente que reformula este proceso como una serie de operaciones de copiar y pegar fragmentos de texto desde colecciones existentes. Esta metodología, implementada en un modelo llamado COG (Copy-Generator), representa un cambio de paradigma en cómo concebimos la generación automática de lenguaje.

La idea fundamental es que, en lugar de predecir el siguiente token de un vocabulario estático, el modelo busca y recupera frases completas de contextos específicos dentro de documentos existentes. Estas frases pueden ser de longitud variable, desde palabras individuales hasta expresiones multi-palabra, y lo crucial es que cada frase mantiene su representación contextualizada original. El sistema construye una tabla de frases mediante codificadores que computan representaciones vectoriales para cada segmento de texto, indexándolas usando herramientas eficientes de búsqueda vectorial. Durante la generación, en cada paso de decodificación, el modelo busca la frase más adecuada de esta colección y la añade al prefijo actual.

Esta aproximación ofrece ventajas significativas sobre los modelos neuronales tradicionales. Primero, al seleccionar frases en contextos específicos en lugar de tokens aislados, permite representaciones más precisas y selecciones más acertadas. Segundo, facilita la adaptación sin entrenamiento a nuevas fuentes de conocimiento, simplemente actualizando la colección de textos de manera modular, lo que beneficia escenarios como la adaptación a dominios específicos. Tercero, al generar múltiples tokens simultáneamente en un solo paso, reduce el número total de pasos de decodificación, mejorando la eficiencia de inferencia.

Los experimentos realizados sobre el benchmark WikiText-103 demostraron que COG supera sustancialmente a los sistemas estándar tanto en métricas automáticas como en evaluación humana. Específicamente, obtuvo una puntuación MAUVE de 26.14 frente a 23.43 del mejor baseline, y en preferencia humana alcanzó un 48% frente al 28% del modelo Transformer tradicional. Incluso usando búsqueda codiciosa (greedy search), que típicamente causa problemas de degeneración, COG superó a Transformers con nucleus sampling, demostrando mayor robustez. La eficiencia de inferencia resultó comparable a modelos autorregresivos a nivel de token gracias a la reducción de pasos de decodificación, ya que las frases copiadas frecuentemente contienen múltiples tokens.

El modelo también demostró capacidades excepcionales de adaptación a dominios específicos sin entrenamiento adicional. Al cambiar la colección de textos de WikiText-103 a Law-MT, un corpus legal, COG superó incluso a modelos Transformer específicamente entrenados en ese dominio. Además, al escalar la colección a un corpus más grande, el modelo obtuvo mejoras adicionales sin ningún entrenamiento extra, sugiriendo que puede entrenarse con corpus pequeños pero aprovechar información de colecciones mayores de forma plug-and-play.

La arquitectura de COG consta de tres componentes principales: un codificador de prefijos basado en Transformer con atención causal, un codificador de frases que usa BERT bidireccional para generar representaciones contextualizadas, y embeddings de tokens independientes del contexto que permiten generación de tokens individuales cuando no hay frases adecuadas disponibles. El entrenamiento combina una pérdida para predicción de frases usando InfoNCE con negativos en el batch, y una pérdida autorregresiva estándar a nivel de token. Este enfoque innovador abre nuevas posibilidades para la generación de texto, demostrando que copiar inteligentemente puede ser tan poderoso como generar desde cero.

La fundamentación matemática de COG reformula la generación de texto reemplazando la distribución softmax tradicional pθ(xᵢ = w|x<ᵢ) = exp(vw · hᵢ) / Σw'∈V exp(vw' · hᵢ) sobre un vocabulario fijo V por una distribución sobre frases contextualizadas p(k|x<ᵢ) ∝ exp(pk · qᵢ), donde pk es la representación de la frase k y qᵢ la del prefijo, estableciendo un espacio vectorial compartido donde el producto punto mide la idoneidad semántica. El codificador de frases logra eficiencia mediante una arquitectura que primero genera representaciones bidireccionales D̂ ∈ ℝᵐˣᵈᵗ para un documento, luego aplica dos MLPs produciendo Dₛₜₐᵣₜ y Dₑₙᵈ en ℝᵐˣ⁽ᵈ/²⁾, y construye cualquier frase como PhraseEncoder(s, e, D) = [Dₛₜₐᵣₜ[s]; Dₑₙᵈ[e]], almacenando solo 2m vectores en lugar de O(m²) representaciones de frases. 

El entrenamiento utiliza la pérdida contrastiva InfoNCE: Lₚ = -1/n Σₖ log [exp(qₖ · pₖ) / (Σₚ'∈Pₖ exp(qₖ · pₚ') + Σw∈V exp(qₖ · vw))], que maximiza la similitud entre prefijos y sus continuaciones correctas mientras las distingue de negativos duros del mismo documento, complementada con la pérdida autorregresiva estándar Lₜ para mantener generación a nivel de token, combinándose como L = Lₚ + Lₜ. La inferencia enfrenta el problema de Maximum Inner Product Search sobre miles de millones de frases mediante una estrategia coarse-to-fine: primero recupera K≈1024 documentos relevantes usando DPR y FAISS, luego busca exhaustivamente sobre sus frases el máximo k* = argmaxₖ∈P' (pk · qᵢ). La decodificación puede ser codiciosa seleccionando directamente el máximo, o mediante nucleus sampling convirtiendo puntuaciones en probabilidades p(k|qₜ) = exp(pk · qₜ) / Σₖ' exp(pₖ' · qₜ) y muestreando del subconjunto con masa acumulada p=0.95. El algoritmo de segmentación para entrenamiento implementa forward maximum matching, buscando en cada posición el prefijo más largo que aparezca en otros documentos para cortarlo como frase, aproximando búsqueda exhaustiva O(N·m²) a O(K·m²) mediante restricción a documentos similares, mientras la evaluación emplea MAUVE que modela distribuciones como mezclas gaussianas en espacio latente y computa divergencia de frontera, junto con métricas de repetición Rep-n y diversidad que capturan degeneración y riqueza léxica mediante productos de unicidad de n-gramas.Claude es IA y puede cometer errores. Por favor, verifica nuevamente las respuestas.

El artículo puede leerse en este enlace.



5/1/26

Generación de poemas

 



AI Poem Generator es un generador de versos que redacta un poema sobre un tema que introduce el usuario al principio.

Con una misma petición puede generar hasta tres poemas diferentes. 

Utiliza ChatGpt.

Puede usarse desde este enlace.

Por ejemplo, introduciendo este prompt  "sobre la alegría de ver nacer  aun hijo. En español", el resultado es:

En la sala llena de luz,
un susurro, un suave arrullo,
un latido que ya se siente,
la vida despierta en un murmullo.

Pequeñas manos recién llegadas,
un rostro que brilla como el sol,
los ojos que miran con inocencia,
un amor que crece en el corazón.

La alegría estalla como flores,
cada risa, un canto de estrella,
los días nuevos traen promesas,
en cada paso, la vida se sella.

El mundo se viste de colores,
los sueños despiertan en su andar,
cada pequeño gesto es un regalo,
un viaje eterno por comenzar.

En la ternura de un abrazo,
se siente el eco de un hogar,
la alegría de ver nacer,
un hijo es un mágico despertar.


Si el prompt es más largo, más elaborado, el resultado es también más trabajado. Por ejemplo, pidiendo "Redacta un soneto que trate sobre el recuerdo de la niñez, que es gozoso pero también melancólico y amargo por el recuerdo de los que se han ido. Utiliza un estilo de prosa contemporáneo, con escasa adjetivación e ideas bien concretadas. En español.", obtenemos:

En el rincón del alba risueña,
donde el sol despertaba sueños,
las risas bailaban en el aire,
voces de amigos, ecos sin dueño.

Corremos tras las sombras al río,
el reflejo de un tiempo lejano,
las manos entrelazadas en juego,
con cada paso, un instante humano.

Pero en la brisa se cuela el silencio,
sombra de aquellos que ya no están,
sus risas se ahogan en el recuerdo,
como hojas secas que el viento va.

Y en esa mezcla de luz y dolor,
la niñez vive, aunque se marchó.

Si eliminamos la restricción de que sea un soneto, pero con la misma petición, tenemos:

En el jardín de la infancia
las risas eran ecos,
puentes de colores
que cruzaban el tiempo.
El sol se filtraba a través de las hojas,
las sombras cortaban el aire,
y mis pies descalzos
buscaban la brisa tibia.

Construía castillos en la arena,
habitaciones de aire,
donde todo era posible,
donde el viento me hablaba.
Las tardes se estiraban,
pintando el cielo de anaranjado
mientras las estrellas comenzaban
a dudar de su propio brillo.

Recuerdo el chasquido de las puertas,
el aroma de la tierra húmeda,
y aquellas risas compartidas,
añoradas y presentes
aún en el silencio,
susurros que se escapan
entre las páginas del tiempo.

Pero hay sombras que acarician
el corazón en su vuelo,
caras que se desvanecen
como el humo de un recuerdo.
Una risa que falta
en cada reencuentro,
una mirada que perdí
entre la niebla de los años.

Siempre hay una grieta,
un resquicio que duele,
una canción que se ahoga
con la ausencia que pesa,
cuando la niñez se vuelve nostalgia,
y cada rincón guarda un eco,
una promesa de lo que fue,
un susurro de lo que se perdió.

Camino entre estos vestigios,
con el corazón dividido,
entre la luz del juego
y la sombra del adiós.
Y en cada paso hacia adelante,
cargamos con el peso
de los que se fueron,
de los que aún viven en nosotros,
desdibujados pero intensos,
como un atardecer que promete,
aunque no vuelva a ser igual.

Así, en este laberinto de memorias,
donde el gozo se entrelaza con el dolor,
camino con la esperanza
de que el recuerdo no se apague,
de que en cada reencuentro
se encienda una luz,
un abrazo infinito
que atraviese la distancia,
y que la niñez,
aunque lejana,
siga siendo hogar.




3/1/26

Hengki Koentjoro

 


Hengki Koentjoro es un fotográfo excepcional y de mucho talento. 

Hengki Koentjoro es un fotógrafo indonesio de renombre internacional, cuya obra se ha consolidado como una de las expresiones más evocadoras de la fotografía en blanco y negro contemporánea. Nacido en Semarang, Java Central, Indonesia, en 1963, Koentjoro encontró su primera cámara a los once años, un regalo que encendió una pasión profunda por capturar el mundo a través del lente. La obra de Hengki Koentjoro es un testimonio del poder expresivo del blanco y negro: logra transformar la naturaleza y las experiencias humanas en imágenes que invitan a la contemplación, a la introspección y a encontrar significado en la simplicidad misma. Su visión es a la vez atemporal y profundamente emocional, un puente entre luz y sombra donde el espectador se detiene a reencontrarse con lo esencial.

Su trayectoria artística formal comenzó en el Brooks Institute of Photography en Santa Bárbara, California, donde se especializó no sólo en producción de video, sino también en el arte de la fotografía en blanco y negro, técnica que definiría su práctica artística a lo largo de toda su vida. A su regreso a Indonesia, Koentjoro se estableció en Yakarta, trabajando como videógrafo y editor independiente para documentales de naturaleza y perfiles corporativos, mientras desarrollaba paralelamente su vocación por la fotografía artística en blanco y negro. 

La obra de Koentjoro va mucho más allá de la simple documentación. Explora el dominio espectral entre luz y sombra, revelando una paleta infinita de grises que transforma escenas naturales en meditaciones visuales profundas, buscando capturar la esencia espiritual de la naturaleza, ya sea en bosques, montañas, océanos o paisajes urbanos, y celebra la complejidad dentro de lo minimalista. La influencia del minimalismo y de la estética Zen es evidente en muchas de sus imágenes: el espacio negativo toma tanto protagonismo como el sujeto, creando imágenes que parecen silenciosas pero resonantes, donde la naturaleza se presenta en toda su profundidad meditativa. Koentjoro reduce la escena a los elementos estrictamente necesarios, buscando composiciones limpias y equilibradas. A menudo utiliza espacios negativos amplios, que refuerzan la sensación de soledad, vastedad o quietud. Este vacío visual no es ausencia, sino un recurso activo que permite que el sujeto respire y adquiera mayor fuerza simbólica.

Sus preferencias son los paisajes montañosos y neblinosos de Java y otras regiones de Indonesia, donde las formas de la tierra y el cielo parecen entrelazarse en un diálogo silencioso. También, las escenas costeras y marinas, explorando la textura y el movimiento del agua como símbolo de vida, fluidez y esencia. Incluso ha hecho series de fotografías bajo el agua (como en su serie Monohydra), donde la ausencia de color resalta formas, líneas y atmósferas únicas, lejos de una documentación convencional de biodiversidad y más cerca de una expresión artística introspectiva. Otros temas que ha explorado son las series documentales sobre comunidades, paisajes rurales y escenas introspectivas que combinan humanidad y naturaleza.  

Técnicamente, logra un control excepcional de la gama tonal, trabajando una amplia gradación de grises, evitando contrastes abruptos salvo cuando la composición lo exige. Sus imágenes se caracterizan por transiciones suaves entre luces y sombras, creando una sensación envolvente y casi etérea. La luz raramente es dura; suele ser difusa, filtrada por niebla, nubes o agua, lo que refuerza el carácter introspectivo de sus paisajes. Este tratamiento tonal contribuye a una atmósfera silenciosa y contemplativa, donde la imagen parece suspendida en el tiempo. La luz no actúa como protagonista, sino como un elemento modelador que revela lentamente la forma, del mismo modo que un escultor descubre una figura dentro del bloque de piedra. Muchas de sus imágenes se realizan con tiempos de exposición prolongados, especialmente en escenas marinas o con niebla, lo que suaviza el movimiento del agua o de las nubes y aporta una cualidad onírica a la imagen. Este recurso técnico no es un artificio, sino una extensión de su búsqueda estética: transformar lo efímero en algo sereno y duradero. El procesamiento digital —o en etapas anteriores, el trabajo en cuarto oscuro— es cuidadoso y contenido. Koentjoro evita manipulaciones excesivas; su edición está orientada a refinar la intención original, enfatizando texturas, profundidades y contrastes internos sin romper la naturalidad de la escena.

La fotografía de Koentjoro ha sido ampliamente premiada y exhibida en prestigiosos concursos y espacios internacionales: Ha publicado varias monografías y colaborado con editoriales internacionales, presentando sus series más significativas como libros de arte.

Se puede disfrutar de su obra en estos enlaces: su página, Facebook, Instagram.



2/1/26

GPTMB 2026

 


Se anuncia el Congreso The Third International Conference on Generative Pre-trained Transformer Models and Beyond (GPTMB 2026= que se celebrará en Niza del 5 al 9 de julio de este 2026.

En este momento, está abierta la convocatoria para presentar ponencias para que sean evaluadas por el comité de selección. El plazo estará activo hasta el 14 de marzo. Habrá sesiones presenciales y on-line.

Los trabajos que se admiten a revisión deben versar sobre: 

Fundamentos de la IA generativa

Modelos transformadores generativos pre-entrenados (GPT)

Modelos basados en transformadores y LLM (Large Language Models, Modelos de Lenguaje de Gran Tamaño)

Combinación de modelos GPT y modelos de aprendizaje por refuerzo

Creatividad y originalidad en herramientas basadas en GPT

Taxonomía del entrenamiento de LLM basado en contexto

Aprendizaje profundo y LLM

Generación aumentada por recuperación (RAG) y ajuste fino (fine-tuning) de LLM

LLM y aprendizaje por refuerzo con retroalimentación humana (RLHF)

LLM (autorregresivos, aumentados por recuperación, autoencoders, aprendizaje por refuerzo, etc.)

Recursos computacionales para el entrenamiento de LLM y para aplicaciones basadas en LLM


LLM

Taxonomía de los Modelos de Lenguaje de Gran Tamaño (LLM)

Características del modelo (arquitectura, tamaño, datos de entrenamiento y duración)

Construcción, entrenamiento y ajuste fino de LLM

Rendimiento (precisión, latencia, escalabilidad)

Capacidades (generación de contenido, traducción, interacción)

Dominio (médico, legal, financiero, educativo, etc.)

Ética y seguridad (sesgo, equidad, filtrado, explicabilidad)

Aspectos legales (privacidad de datos, exfiltración de datos, derechos de autor, licencias)

Desafíos (integraciones, desajustes, sobreajuste, sub-ajuste, alucinaciones, interpretabilidad, mitigación de sesgos, ética)


Herramientas y aplicaciones basadas en LLM

Requisitos exigentes para acciones básicas y principios fundamentales

Métodos para la selección optimizada del tamaño y la complejidad del modelo

Mecanismos de ajuste fino y personalización

Alineación de interacciones humanas y acciones

Capacidades de entrada/salida multimodales (texto con datos visuales, de audio y otros tipos)

Aprendizaje adaptativo o continuo (optimización del entrenamiento, conciencia del contexto)

Amplio rango de idiomas y dialectos, incluida la expansión regional

Escalabilidad, comprensibilidad y explicabilidad

Herramientas para desarrollo de software, planificación, flujos de trabajo, programación, etc.

Aplicaciones en robótica, sistemas autónomos y objetivos en movimiento

Aplicaciones interdisciplinarias (finanzas, salud, tecnología, etc.)

Aplicaciones para el descubrimiento y la investigación científica avanzada

Requisitos computacionales y consumo energético

Técnicas eficientes (cuantización, poda, etc.)

Fiabilidad y seguridad de las aplicaciones basadas en LLM

Cocreación, código abierto y accesibilidad global

Consideraciones éticas (mitigación de sesgos, equidad, responsabilidad)


Modelos de lenguaje pequeños y modelos de lenguaje diminutos

Arquitectura y principios de diseño específicos de los modelos de lenguaje pequeños

Modelos de lenguaje diminutos para smartphones, dispositivos IoT, dispositivos de borde (edge) y sistemas embebidos

Herramientas para modelos de lenguaje pequeños (DistilBERT, TinyBERT, MiniLM, etc.)

Destilación de conocimiento, cuantización, baja latencia y optimización de recursos

Eficiencia energética para FPGAs y ASICs especializados en el despliegue de modelos

Modelos de lenguaje diminutos para aplicaciones de traducción en tiempo real y chatbots móviles

Lenguajes diminutos y aprendizaje federado para la privacidad

Modelos de lenguaje pequeños con visión para aplicaciones multimodales

Consideraciones de hardware (energía, cuantización, poda, etc.)

Modelos de lenguaje diminutos y aceleradores de hardware (GPU, TPU y ASICs personalizados para ML)


Problemas críticos relacionados con los datos de entrada

Conjuntos de datos: exactitud, granularidad, precisión, falsos/verdaderos negativos y positivos

Datos visibles frente a invisibles (privados, personalizados)

Extrapolación de datos

Sesgos de salida y conjuntos de datos sesgados

Sensibilidad y especificidad de los conjuntos de datos

Información falsa e incorrecta

Datos volátiles

Datos sensibles al tiempo


Problemas críticos en el procesamiento

Veracidad del proceso

Comprensibilidad, interpretabilidad y explicabilidad

Detección de sesgos e incorrecciones

Incorporación de retroalimentación interactiva

Incorporación de correcciones

Generación aumentada por recuperación (RAG) para la entrada de LLM

RLHF para el ajuste fino de la salida de LLM


Calidad de la salida

Sesgos en la salida y conjuntos de datos sesgados

Sensibilidad y especificidad de los conjuntos de datos

Salida consciente del contexto

Resumen de texto fino/grueso

Calidad de la preevaluación de datos (obsoletos, incompletos, falsos, ruidosos, etc.)

Validación de la salida

Detección y explicación de alucinaciones

Detección de resúmenes sesgados o incorrectos antes de su difusión


Educación y responsabilidad académica

Revisión de planes de estudio para integrar herramientas y metodologías basadas en IA

Concienciación del usuario sobre la confiabilidad de las salidas

Normas sobre infracción de derechos de autor

Herramientas contra el plagio y el autoplagio

Infracción de propiedad intelectual

Mecanismos para la verificación de referencias

Gestión de autorreferencias ocultas


Regulaciones y limitaciones

Regulaciones (licencias, pruebas, umbrales de cumplimiento, innovaciones descentralizadas/centralizadas)

Mitigación de los riesgos sociales de los modelos GPT

Captura de emociones y sensibilidad

Falta de memoria personalizada (individual) y recuerdos (hechos pasados)

Falta de pensamiento personalizado instantáneo (resúmenes personalizados)

Riesgo de decisiones basadas en GPTM

Conciencia de la IA

Descalificación inducida por la IA


Casos de estudio con análisis y pruebas de aplicaciones de IA

Lecciones aprendidas con herramientas existentes (ChatGPT, Bard AI, ChatSonic, etc.)

Analítica predictiva en salud

Diagnóstico médico

Imágenes médicas

Farmacología

Terapia basada en IA

Finanzas basadas en IA

Planificación basada en IA

Toma de decisiones basada en IA

Control de sistemas basado en IA

Educación basada en IA

Ciberseguridad basada en IA


Más información en este enlace.


30/12/25

L’autre dans le miroir : Littérature jeunesse et numérique, les nouveaux outils de la rencontre ?

 


Se anuncia para el próximo año el coloquio titulado L’autre dans  le miroir : Littérature jeunesse et numérique, les nouveaux outils de la rencontre? que tendrá lugar en Burdeos y Toulouse los días 4 y 5 de marzo.

Este evento se inscribe en la continuidad de encuentros previos dedicados a la interculturalidad y a las representaciones de las migraciones en la literatura juvenil, y propone reflexionar sobre las nuevas formas de encuentro con el otro en un contexto marcado por la digitalización y la diversidad cultural.

El coloquio se estructura en dos jornadas temáticas. 

La primera, titulada “Encontrar al otro en la era digital”, tendrá lugar en Burdeos y se centrará en el impacto de las tecnologías digitales —especialmente internet y las redes sociales— en los procesos de mediación cultural y literaria. Partiendo de la idea de que la distancia geográfica se ha reducido gracias a la conectividad digital, la jornada se pregunta si lo mismo ocurre con la distancia cultural. Se abordarán las transformaciones de las prácticas de lectura y escritura, así como la redefinición de la relación entre autores y lectores en entornos digitales participativos.

En este marco, el primer eje analiza el papel de las redes sociales literarias (#BookTok, #Bookstagram, blogs o foros) en la visibilización de obras, la prescripción lectora y la construcción de comunidades interpretativas. La literatura juvenil aparece como un campo privilegiado de estudio, especialmente a través de obras que tratan temas como el exilio, la migración, las fronteras y la hospitalidad, y cuya circulación digital amplifica su potencial intercultural. El segundo eje de esta primera jornada se centra en la pedagogía y las prácticas interculturales digitales. Se examina cómo las plataformas digitales influyen en la construcción identitaria de jóvenes y adultos, y cómo pueden actuar como mediadores en el encuentro con el otro dentro y fuera del aula.

La segunda jornada, titulada “Del otro lado del espejo”, se celebrará en Toulouse y se enfocará en la literatura juvenil como herramienta de construcción identitaria. Inspirándose en la metáfora del espejo, se concibe al otro como un reflejo que permite al lector descubrirse a sí mismo. La literatura juvenil es presentada como un instrumento didáctico fundamental para fomentar el reconocimiento de la alteridad y el diálogo intercultural desde la infancia. En este contexto, el tercer eje aborda las pedagogías de la encuentro, subrayando la importancia de la reciprocidad, la creación artística y las experiencias compartidas para generar procesos educativos transformadores. Se exploran también iniciativas asociativas y colaborativas que utilizan el intercambio de historias como medio para fortalecer la empatía y la comprensión mutua. Por fin, el cuarto eje se dedica a la relación entre literatura juvenil y lenguas, con especial atención al plurilingüismo y a las lenguas minoritarias. Se analizará cómo la lengua actúa como herramienta cultural y como espacio de construcción del otro y de uno mismo. A través de álbumes bilingües, talleres de escritura plurilingüe y propuestas musicales, se destacarán estrategias para convertir el aula en un lugar de hospitalidad lingüística y cultural. 


27/12/25

My boyfriend came back from the war. After dinner they left us alone

 


My boyfriend came back from the war. After dinner they left us alone, de de Olia Lialina, es un trabajo literario digital de 1996  y está considerado una de las primeras piezas fundamentales del net art. La obra se presenta como una experiencia interactiva basada en hipervínculos: el usuario comienza en una pantalla negra con un texto inicial y, al hacer clic, accede a una serie de ventanas fragmentadas donde se desarrolla una conversación entre una pareja reunida tras la guerra. El espectador decide qué enlaces seguir, lo que determina cómo se revela el diálogo y cuándo ciertas partes dejan de ser activas.

La historia gira en torno a conflictos emocionales como la desconfianza, la fidelidad, el compromiso y la distancia afectiva causada por la guerra. El formato fragmentado y la estética sobria refuerzan el sentimiento de soledad, duda y tensión en la relación. La interactividad no es solo técnica, sino también simbólica: las decisiones del usuario reflejan la indecisión y el peso emocional de la conversación entre los personajes. 

Las imágenes son en blanco y negro que, por un lado, era lo que mejor podía hacerse con los ordenadores de hace 30 años y, por otro, se adecúa muy bien a la atmósfera de la narración.

Puede accederse desde este enlace.









25/12/25

Chip fotónico puede permitir un rendimiento mucho mayor en los LLMs

 


El desarrollo del chip óptico LightGen puede representar un avance significativo en la computación fotónica aplicada a la inteligencia artificial generativa, particularmente en tareas de visión inteligente a gran escala. 

Publicado en la revista Science con el título "All-optical synthesis chip for large-scale intelligent semantic vision generation", este trabajo liderado por  Yitong Chen, Xinyue Sun, Longtao Tan, Yizhou Jiang, Yin Zhou, Wenjun Zhang y Guangtao Zhai, de las universidades de Shanghai Jiao Tong y es en China, introduce un chip completamente óptico que integra más de dos millones de neuronas fotónicas en una estructura tridimensional. Es esta estructura 3D en la posición de las "neuronas" la que distingue a este nuevo chip de los habituales dispositivos fotónicos que tienen sus circuitos grabados en 2D. Por así decirlo, pasamos de un diseño plano de puertas fotónicas y conexiones planas a un diseño en 3D que permite un procesamiento paralelo, con los nodos operando simultáneamente en vez de secuencialmente. 

Como es bien sabido, los circuitos fotónicos permiten mayor velocidad y menor consumo que los basados en silicio. Los primeros mueven fotones a la velocidad de la luz mientras que los segundos deben mover electrones. 

La innovación clave radica en la integración de un espacio latente óptico que permite variar las dimensiones de la red neuronal a la velocidad de la luz, evitando conversiones dimensionales que consumen tiempo en sistemas fotónicos anteriores. Además, incorpora algoritmos de entrenamiento basados en técnicas bayesianas, independientes de los datos de referencia (ground-truth), lo que facilita el manejo de modelos generativos complejos sin depender de conjuntos de datos etiquetados exhaustivos. Experimentalmente, el chip ha demostrado capacidades en la generación de imágenes semánticas de alta resolución, eliminación de ruido, transferencia de estilos, creación de escenas tridimensionales y manipulación de imágenes coloridas complejas. Por ejemplo, puede procesar imágenes enteras de una sola vez gracias a su estructura en capas apiladas, superando el enfoque de de procesar la información poco a poco, por fragmentos, que se usa en otros chips fotónicos planos, lo que a menudo conlleva el que los fragmentos independientemente procesados no encajan al final con una  menor calidad del resultado. En pruebas realizadas, LightGen generó imágenes de animales y paisajes naturales, así como videos cortos en alta definición, con un rendimiento que iguala o supera a sistemas líderes como Stable Diffusion y StyleGAN.

En términos de rendimiento, el chip ofrece una velocidad de cómputo de extremo a extremo y una eficiencia energética que superan en más de dos órdenes de magnitud a los chips electrónicos más modernos, como el NVIDIA A100. Esto se traduce en un aumento de 100 veces en velocidad y eficiencia energética, junto con una densidad computacional 100 veces mayor en el mismo espacio físico. Estas métricas se obtuvieron en tareas que tradicionalmente demandan recursos masivos, como la generación de contenido visual de alta complejidad, donde los chips convencionales tienen limitaciones con tareas de computación intensiva. La ausencia de conversiones electro-ópticas reduce las latencias y el consumo de energía, ya que los fotones viajan sin resistencia, generan menos calor y permiten un paralelismo masivo inherente a la óptica.

Aunque el enfoque principal de LightGen está en aplicaciones de visión generativa, sus ventajas se extienden al funcionamiento de los grandes modelos de lenguaje (LLMs), que también forman parte del ecosistema de IA generativa a gran escala. Los LLMs, como GPT o Llama, requieren un poder computacional enorme tanto para la fase de entrenamiento como para la de generación de diálogo, consumiendo cantidades ingentes de electricidad y generando emisiones de carbono significativas. La computación óptica, como la aquí citada, aprovecha la velocidad inherente de la luz para acelerar las operaciones matriciales en las que se basan las matemáticas que hacen funcionar las redes neuronales y que son fundamentales en las arquitecturas de transformadores que subyacen en los LLMs. Así, se reducen los cuellos de botella en el procesamiento paralelo de tokens lingüísticos. 

En el contexto de LightGen, su capacidad para variar dimensiones de red a velocidad lumínica podría adaptarse a los requerimientos dinámicos de los LLMs, donde el escalado de parámetros —a menudo en miles de millones— exige flexibilidad y eficiencia. Esto no solo acelera la inferencia en tiempo real, crucial para aplicaciones conversacionales, sino que también hace viable el entrenamiento sostenible de modelos más grandes, mitigando la escasez de recursos computacionales que afecta al sector.

Adicionalmente, la escalabilidad de LightGen, con millones de neuronas integradas en un chip compacto, abre puertas a la implementación de modelos híbridos que combinen visión y lenguaje, como en sistemas multimodales. 

Más información divulgativa en este enlace


24/12/25

IA Titans

 


Titans es una nueva arquitectura de inteligencia artificial desarrollada por Google Research diseñada para abordar una de las mayores limitaciones de los modelos actuales: la memoria y el aprendizaje continuo. En lugar de funcionar como modelos convencionales (que solo “recuerdan” durante la sesión y olvidan al terminar), Titans introduce un módulo de memoria a largo plazo que puede aprender y actualizarse en tiempo real. 

Lo esencial de Titans es su capacidad para “memorizar mientras opera”, es decir, aprender y recordar nueva información sin necesidad de entrenamiento tradicional fuera de línea (fine-tuning). Esto implica que el modelo puede adaptarse a contextos dinámicos y retener información relevante para uso futuro, algo que los modelos basados en transformers no pueden hacer de forma nativa. 

Los modelos de lenguaje convencionales como los Transformers (por ejemplo, GPT, Gemini, etc.) tienen una ventana de contexto finita: no pueden manejar más de una cierta cantidad de tokens (palabras, frases o datos) a la vez. Cuando se excede esa ventana, los datos anteriores se olvidan o se vuelven inaccesibles, limitando tareas complejas como:

  • Comprender textos muy largos (libros, contratos extensos, investigaciones científicas),
  • Recordar conversaciones pasadas con coherencia,
  • Integrar aportes contextuales de múltiples sesiones,
  • Aprender de datos dinámicos sin reentrenar de cero. 

Este problema de "olvido" de lo que ya se hablado se denomina “catástrofe del olvido” en el campo del aprendizaje automático: el modelo aprende nuevos datos pero pierde habilidades o conocimiento previamente adquirido. Titans busca mitigar o superar esta limitación, permitiendo al modelo tener una memoria persistente que evoluciona con el tiempo sin perder lo aprendido previamente. 

Este nuevo de modelo, por tanto, surge como respuesta directa a esa limitación estructural citada, una de las más persistentes en los grandes modelos de lenguaje contemporáneos: la incapacidad de mantener y gestionar información relevante a muy largo plazo sin incurrir en costes computacionales prohibitivos o en mecanismos externos de recuperación de información. Desde la consolidación del Transformer como arquitectura dominante, la atención ha demostrado ser una herramienta extremadamente eficaz para modelar dependencias locales y de medio alcance, pero su complejidad cuadrática con respecto al tamaño del contexto impone un límite práctico al número de tokens que pueden procesarse de forma directa. Aunque diversas variantes —como los Transformers lineales, los modelos recurrentes modernos o los enfoques basados en segmentación— han intentado aliviar este problema, el artículo que introduce Titans parte de la premisa de que estas soluciones siguen tratando la memoria como un recurso limitado, estático o excesivamente simplificado, incapaz de capturar la riqueza estructural de contextos largos y cambiantes  

IA Titans no debe entenderse como un único modelo concreto, sino como una familia de arquitecturas profundas que incorporan explícitamente un módulo de memoria neuronal a largo plazo entrenado para aprender, olvidar y recuperar información durante la inferencia. Esta idea, que puede describirse como “learning to memorize at test time”, representa un cambio conceptual importante. En lugar de asumir que el conocimiento del modelo queda congelado tras el entrenamiento, Titans introduce un componente que adapta sus parámetros internos mientras procesa la secuencia, de forma controlada y regulada, actuando como un meta-aprendiz que optimiza su comportamiento de memoria en tiempo real. En este sentido, Titans no debe entenderse como un competidor directo de modelos como Gemini, GPT o Claude, sino más bien como una arquitectura que puede servir de base o complemento para ese tipo de modelos. La idea central es introducir un sistema de memoria neuronal a largo plazo que funcione de manera análoga, aunque no idéntica, a la memoria humana. 

Desde un punto de vista técnico, Titans combina varios tipos de memoria que operan a diferentes escalas temporales. La memoria de corto plazo cumple una función similar a la atención tradicional de los transformers, permitiendo un razonamiento preciso y detallado sobre el contexto inmediato. Esta parte del sistema es altamente flexible y sensible a los matices del lenguaje, pero también es volátil y limitada. A esta capa se le añade una memoria de largo plazo basada en redes neuronales profundas, que no se limita a guardar vectores estáticos, sino que aprende activamente a representar patrones, regularidades y conocimientos relevantes a lo largo del tiempo. Existe además una memoria más estable o persistente, que conserva información estructural fundamental, como conocimientos generales del dominio o reglas básicas, y que no se modifica fácilmente durante la inferencia. La interacción entre estas capas permite que el modelo mantenga coherencia a corto plazo mientras acumula experiencia a largo plazo.

La noción de “learns while it runs” no implica reentrenamiento completo ni ajuste global del modelo, sino la actualización de un módulo específico de memoria neuronal mediante un proceso inspirado en el aprendizaje online y en los mecanismos cognitivos humanos. Se hace la hipótesis de que los eventos inesperados o “sorprendentes” son más memorables, y traduce esta idea a un criterio matemático concreto: la sorpresa de una entrada se mide a partir del gradiente de una función de pérdida asociativa con respecto a los datos de entrada. Cuanto mayor es este gradiente, mayor es la discrepancia entre lo esperado y lo observado, y mayor es la probabilidad de que dicha información se incorpore a la memoria a largo plazo. Este enfoque permite que la memoria no almacene indiscriminadamente todo el flujo de tokens, sino que priorice aquellos fragmentos que aportan información nueva o relevante, reduciendo así el riesgo de saturación.

Desde un punto de vista técnico, la memoria de Titans no es un simple vector ni una matriz fija, como ocurre en muchos modelos recurrentes lineales o en arquitecturas de memoria externas. Se trata de una red neuronal profunda, típicamente un MLP con al menos dos capas, cuya expresividad supera la de los modelos lineales y permite capturar relaciones no lineales en el historial de datos. Al parecer, esta profundidad adicional es clave para representar dependencias complejas en contextos largos, algo que los mecanismos de memoria más simples no consiguen de forma efectiva 

Una diferencia esencial entre Titans y otros grandes modelos de lenguaje es, por tanto, la separación explícita entre memoria a corto plazo y memoria a largo plazo. En Titans, la atención —limitada a una ventana de contexto acotada— actúa como memoria de trabajo o memoria inmediata, altamente precisa pero de alcance restringido, mientras que el módulo de memoria neuronal cumple la función de una memoria persistente capaz de acumular información a lo largo de millones de tokens. A esto se suma un tercer componente, denominado memoria persistente, compuesto por parámetros "aprendibles" pero independientes de los datos de entrada, que codifican conocimiento general sobre la tarea y ayudan a estabilizar el comportamiento del modelo, especialmente en las primeras etapas de la secuencia.

Frente a los Transformers clásicos, la principal ventaja de Titans radica en su capacidad para escalar a contextos extremadamente largos sin que el coste computacional crezca de forma cuadrática. Los experimentos reportados muestran que Titans puede manejar ventanas de contexto superiores a los dos millones de tokens, manteniendo o incluso superando la precisión de modelos basados en atención completa en tareas como “needle-in-a-haystack”, modelado del lenguaje, razonamiento de sentido común, series temporales y análisis genómico. Siendo esto así, y en comparación con modelos recurrentes modernos como Mamba, Griffin o variantes de LSTM extendidas, Titans ofrece una memoria más expresiva, mecanismos explícitos de olvido y una integración más estrecha con la atención, lo que se traduce en un mejor equilibrio entre eficiencia y capacidad de recuerdo. 

No obstante, existen limitaciones claras en este modelo. En primer lugar, la arquitectura es más compleja que la de un Transformer estándar, lo que introduce nuevos hiperparámetros y decisiones de diseño, como la profundidad del módulo de memoria o la forma concreta de integrar memoria y atención. En segundo lugar, aunque la actualización de la memoria está diseñada para ser paralelizable y eficiente, sigue existiendo un coste adicional asociado a la gestión de gradientes y mecanismos de decaimiento, que puede complicar su implementación a gran escala. 

Titans se ha implementado en PyTorch y JAX, utiliza atención causal con ventanas deslizantes, proyecciones lineales normalizadas y convoluciones 1D separables para mejorar la eficiencia, e incorpora mecanismos de “weight decay” y "momentum" que actúan como puertas de olvido adaptativas. Estas puertas permiten que la memoria elimine información obsoleta cuando cambia el contexto, evitando la acumulación indiscriminada de datos y alineándose con modelos contemporáneos de memoria recurrente. Utiliza 760 millones de parámetros y gestiona 2 millones de tokens (equivalentes a 20 libros).

En cuanto a desarrollos futuros, existen ya sugerencias interesantes para integrar la memoria en modelos de lenguaje de gran escala, no como un módulo externo añadido tras el entrenamiento, sino como parte integral del diseño desde el inicio. En conjunto, Titans apunta hacia una generación de sistemas de IA que no solo procesan texto, sino que desarrollan una forma de memoria dinámica y adaptativa, más cercana a los procesos cognitivos humanos y mejor preparada para operar en entornos complejos y de larga duración.

Mas información en este artículo técnico y en este sitio web.






22/12/25

Si yo fuese Dios






 ME BASTA ASÍ



Si yo fuese Dios
y tuviese el secreto,
haría un ser exacto a ti;
lo probaría
(a la manera de los panaderos
cuando prueban el pan, es decir:
con la boca),
y si ese sabor fuese
igual al tuyo, o sea
tu mismo olor, y tu manera
de sonreír,
y de guardar silencio,
y de estrechar mi mano estrictamente,
y de besarnos sin hacernos daño
—de esto sí estoy seguro: pongo
tanta atención cuando te beso—;
                                entonces,
si yo fuese Dios,
podría repetirte y repetirte,
siempre la misma y siempre diferente,
sin cansarme jamás del juego idéntico,
sin desdeñar tampoco la que fuiste
por la que ibas a ser dentro de nada;
ya no sé si me explico, pero quiero
aclarar que si yo fuese
Dios, haría
lo posible por ser Ángel González
para quererte tal como te quiero,
para aguardar con calma
a que te crees tú misma cada día
a que sorprendas todas las mañanas
la luz recién nacida con tu propia
luz, y corras
la cortina impalpable que separa
el sueño de la vida,
resucitándome con tu palabra,
Lázaro alegre,
yo,
mojado todavía
de sombras y pereza,
sorprendido y absorto
en la contemplación de todo aquello
que, en unión de mí mismo,
recuperas y salvas, mueves, dejas
abandonado cuando —luego— callas...
(Escucho tu silencio.
                    Oigo
constelaciones: existes.
                        Creo en ti.
                                    Eres.
                                          Me basta)
.



Un poema de Ángel González