18/1/26

MEMRL

 


El artículo titulado MEMRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory presenta un marco de trabajo innovador diseñado para permitir que los agentes basados en modelos de lenguaje de gran tamaño (LLM) evolucionen de manera autónoma sin necesidad de actualizar sus parámetros internos.

Este estudio es una colaboración de investigadores pertenecientes primordialmente a la Universidad Jiao Tong de Shanghái (Shengtao Zhang, Weinan Zhang, Ying Wen y Muning Wen), junto con especialistas del Instituto de Innovación de Shanghái, la Universidad Xidian, la Universidad Nacional de Singapur, la empresa MemTensor y la Universidad de Ciencia y Tecnología de China.

La investigación parte de una observación fundamental sobre la inteligencia humana: nuestra capacidad para dominar nuevas habilidades a través de la "simulación episódica constructiva", que consiste en recuperar experiencias pasadas para sintetizar soluciones ante tareas inéditas. 

Aunque los modelos de lenguaje actuales poseen capacidades de razonamiento notables, carecen de esta facultad de autoevolución dinámica. Las soluciones tradicionales presentan graves deficiencias: el ajuste fino de parámetros es computacionalmente costoso y propenso al "olvido catastrófico", mientras que los métodos de recuperación de información pasivos, como la Generación Aumentada por Recuperación (RAG), se limitan a coincidencias semánticas que a menudo recuperan "ruido" o información irrelevante sin evaluar su utilidad real.

Para resolver este dilema entre estabilidad y plasticidad, los autores proponen MEMRL, un sistema que desacopla el razonamiento estable de un modelo de lenguaje respecto al de una memoria episódica plástica y en constante evolución. En este esquema, el modelo de lenguaje actúa como un "córtex" estable, mientras que la memoria externa funciona como un canal de adaptación continua.

La arquitectura del modelo se basa en el triplete Intención-Experiencia-Utilidad. El núcleo de MEMRL es la transformación del proceso de recuperación de información, pasando de ser una tarea de búsqueda pasiva a un proceso de toma de decisiones activo. Para ello, la memoria se organiza en una estructura de triplete: Intención, Experiencia y Utilidad. 

 - Intención : Representa el vector numérico de la consulta o tarea del usuario

- Experiencia : Almacena la solución o trayectoria generada anteriormente.

- Utilidad : Es un valor numérico aprendido (valor-Q) que estima el éxito esperado al aplicar esa experiencia específica a intenciones similares.

El funcionamiento del sistema se divide en dos fases críticas de recuperación:

Fase A: Recuerdo basado en similitud. El sistema filtra la memoria para identificar experiencias que sean semánticamente consistentes con la consulta actual, reduciendo el espacio de búsqueda a un subconjunto relevante.

Fase B: Selección consciente del valor. De las opciones filtradas, el agente selecciona aquellas con mayores valores-Q15. Esto permite distinguir estrategias de alto valor de aquellas que, aunque parezcan similares en el lenguaje, han fallado en el pasado.

A diferencia de los métodos que modifican los pesos del modelo, MEMRL realiza un aprendizaje de refuerzo no paramétrico directamente sobre la memoria. Tras completar una tarea y recibir una señal de recompensa del entorno (éxito o fracaso), el sistema actualiza los valores de utilidad utilizando una regla de diferencia temporal inspirada en las ecuaciones de Bellman. Este proceso permite que el agente "recuerde" qué estrategias funcionan realmente a través del ensayo y error. 

Los autores demuestran matemáticamente que este proceso es estable. Mediante el uso de promedios móviles exponenciales, prueban que los valores de utilidad convergen hacia el retorno esperado real, filtrando el ruido de alta frecuencia y evitando oscilaciones incontroladas. Además, analizan el sistema como un proceso de "Maximización de la Esperanza Generalizada", lo que garantiza que la política de recuperación se estabilice con el tiempo, evitando así el olvido de las capacidades previamente adquiridas.

La eficacia de MEMRL fue validada en cuatro entornos de prueba diversos y exigentes: BigCodeBench (generación de código), ALFWorld (navegación en entornos físicos), Lifelong Agent Bench (interacción con sistemas operativos y bases de datos) y Humanity's Last Exam (HLE) (razonamiento complejo multidisciplinar). Los resultados muestran que MEMRL supera consistentemente a todos los métodos de referencia, incluyendo sistemas RAG avanzados y otros sistemas de memoria de agentes. Las ventajas son especialmente notables en entornos que requieren una exploración intensiva, como ALFWorld, donde MEMRL logró una mejora relativa del 82% sobre los modelos sin memoria y del 56% sobre los sistemas de memoria de vanguardia anteriores25.

El estudio concluye que MEMRL ofrece una solución robusta al dilema entre estabilidad y plasticidad en la inteligencia artificial. Al mantener el modelo de lenguaje "congelado", se preserva el razonamiento lógico y el conocimiento general del mundo, mientras que la capa de memoria evolutiva permite una adaptación rápida y eficiente a nuevos dominios. Esta investigación marca un cambio de paradigma: la inteligencia de los agentes no tiene por qué residir únicamente en el tamaño de sus parámetros o en la intensidad de su entrenamiento previo, sino en su capacidad para gestionar y valorar activamente sus propias experiencias vividas.   

17/1/26

Nuevo método recursivo masivo para LLMs desarollado por el MIT

 


En un reciente artículo que puede leerse completo en este enlace, investigadores del MIT liderados por Alex Zhang han presentado un método recursivo para Grandes Modelos de Lenguaje que permite procesar prompts de longitud arbitraria y hasta 10 millones de tokens sin contexto.

Este enfoque, llamado RML - Recursive Language Model- , propone una solución innovadora al problema del contexto largo  permitiendo procesar entradas de más de 10 millones de tokens sin sufrir el fenómeno conocido como "context rot" (degradación progresiva del rendimiento al aumentar la longitud del contexto) y sin necesidad de reentrenar los modelos.

Los modelos más avanzados de lenguaje (como GPT-5) han mejorado notablemente en razonamiento, pero enfrentan aún dos limitaciones principales. Primero, el límite físico del context window (ventana de contexto), que incluso en modelos avanzados como GPT-5 ronda los cientos de miles de tokens (≈272K en las pruebas). Asimismo, el denominado Context rot, donde el rendimiento cae drásticamente con contextos más largos o tareas complejas, incluso cuando el input cabe en la ventana. Hay argumentos teóricos (entropía) que sugieren que expandir la ventana requiere datos de entrenamiento exponencialmente mayores.

Las soluciones habituales, como la compactación o resumen progresivo del contexto anterior, fallan en tareas que necesitan acceso aleatorio y preciso a detalles específicos dispersos en el texto (por ejemplo, revisión legal, análisis de codebases grandes o razonamiento multi-hop).

Antes estos problemas, los RLMs reformulan el problema como uno de sistemas en lugar de arquitectura neuronal pura. Inspirados en algoritmos "out-of-core" (procesamiento de datos que no caben en memoria RAM principal), tratan el prompt largo como un entorno externo accesible programáticamente.

Así, la entrada se carga como una variable de cadena (string) en un entorno de ejecución Python REPL (Read-Eval-Print Loop). Con ello, el LLM no recibe todo el texto en su contexto, sino solo metadatos básicos (longitud total, etc.). Puede decirse que el modelo actúa como "programador" y genera código Python para inspeccionar, buscar (con técnicas como regex, slicing, etc.), particionar y extraer fragmentos relevantes. Cuando se identifica un chunk interesante, se invoca recursivamente el mismo modelo (o uno más barato/rápido) solo sobre ese fragmento.

La arquitectura típica consiste en un LM raíz potente, como GPT-5, que orquesta y planifica las tareas más  un servidor que es  un LM más eficiente y sencillo que  procesa sub-tareas. El resultado es que el sistema mantiene una interfaz idéntica a un LLM estándar (input string → output string), pero escala a longitudes órdenes de magnitud mayores sin tocar la ventana nativa del modelo subyacente. El código de implementación está disponible en GitHub (repositorio de Alex Zhang). 

En las evaluaciones que los autores detallan en su artículo, comparan RLMs contra baselines directos, agentes de resumen, CodeAct y otros enfoques agenticos en tareas de contexto largo. En general, los RLMs mantienen un rendimiento estable más allá de los 16K–272K de tokens, cifras donde los modelos base colapsan. En los experimentos se escaló con éxito a más de 10M tokens (dos órdenes de magnitud por encima del límite habitual).

Además, resultó que los costos medios de operación son comparables o inferiores que otras aplicaciones semejantes, incluso en hasta 3 veces menores.

Los autores argumentan que la mayoría de tareas complejas se descomponen en sub-tareas locales que no requieren ver todo el contexto simultáneamente. Por ello, los RLMs complementan (no reemplazan) técnicas como RAG y se pueden integrar fácilmente como wrapper en aplicaciones empresariales (análisis de código de bases masivas, revisión legal, historiales de chat largos, razonamiento multi-paso). 





15/1/26

Cinquains generados por ordenador

 


Adelaide Crapsey fue una poetisa americana nacida en Nueva York, en 1878. Recibió una educación avanzada y demostró siempre un gran talento literario. Viajó por Europa. Tuvo una vida cargada de tragedias como la muerte temprana de dos de sus hermanas y las preocupaciones que le produjeron los ataques contra su padre, Algernon Sidney Crapse, un pastor que hubo de afrontar un famoso juicio por herejía, debido a sus ideas abiertas y progresistas. Este juicio acabó en la destitución y expulsión de Algernon del cuerpo eclesiástico De salud frágil, Adelaide murió joven, en 1914.

Crapsey fue la creadora del cinquain (del francés cinq, cinco), un tipo de verso inspirado en el haiku oriental que costa de 5 versos, el primero de ellos de sólo 2 sílabas, el segundo de 4 sílabas, el tercero de 6 sílabas, el cuarto de 8 sílabas y el último, nuevamente, de sólo 2 sílabas. La rima es libre pero un buen cinquain mantiene también una estructura rítmica basada en versos yámbicos.

Como es bien sabido, el verso yámbico mantiene una secuencia de acentuación de átona-tónica, repetidamente (ta-TÁ, ta-TÁ, etc) y adquirió su máxima expresión en las obras de Shakespeare que usan preferentemente el endecasílabo yámbico o lo que es lo mismo 5 yambos concluidos por una sílaba átona final. El ritmo se adapta muy bien al idioma inglés pero bastante mal al español.

El cinquain, como los haikus, debe contar una historia que vaya al corazón directamente, dados los pocos recursos con los que se cuenta.

Un ejemplo de cinquain escrito por Crapsey:

Israel!

Wake! Be gay!

Thine enemy is brought low—

Thy foe slain—by the hand, by the hand

Of a woman!


AI aplicada a crear qinquains.

Vamos a ensayar la generación automática de cinquains utilizando algunos de los LLMs existentes. Utilizaremos este prompt, primero en inglés, idioma más apto para este tipo de versos:

Create a poetic cinquain of, obviously, five verses, the first of which has only two syllables, the second four syllables, the third with six syllables, the fourth with eight syllables, and the last, again, with only two syllables. It should tell the story of an old man who, watching the waves of the sea, feels melancholic and thinks that his life, which was once a powerful wave, is now receding to be lost in the sea.

(Genera un cinquain poético de, obviamente, cinco versos, el primero de ellos de sólo 2 sílabas, el segundo de 4 sílabas, el tercero de 6 sílabas, el cuarto de 8 sílabas y el último, nuevamente, de sólo 2 sílabas, Debe contar la historia de un hombre viejo que, viendo las olas del mar, se siente melancólico y piensa que su vida que, un día fue ola poderosa, ya retrocede para perder sen el mar.)


ChatGPT:

Old man

Watches the waves

Once my life was a wave

Now it ebbs back to the wide sea

Gone now


Claude:

The Receding Wave

Old man,

gray by the shore,

watches the waves rise high—

once he crashed fierce upon the rocks,

now fades.


Grok:

Waves sigh.

Old eyes follow foam.

Once I surged, fierce and unbroken,

Now my strength ebbs soft, retreating slow,

Tide calls.


Probemos con otro prompt: Create a poetic cinquain telling the feelings of calm when watching, after a hard long working day, the sun falling down.

(Crea un cinquain que hable de la calma que se siente al ver atardecer tras una dura jornada de trabajo)


ChatGPT:

At dusk

Evening comes

My breath slows, shoulders fall

I watch the sun descend in peace

All still


Claude:


Evening Peace

Stillness,

golden quiet,

the sun melts to the earth—

all the weight of hours dissolves

in light.


Grok:


Waves sigh.

Old eyes follow foam.

Once I surged, fierce and unbroken,

Now my strength ebbs soft, retreating slow,

Tide calls.

 

Probemos ahora ambos prompts en español:


ChatGPT:


Viejo

Ve las olas

Fue ola potente

Hoy retrocede, se pierde en mar

Se va


Claude:


La Ola que Retrocede

Viejo,

junto a la orilla,

mira las olas subir—

fue espuma fuerte contra las rocas,

ya mengua.


Grok:


Olas

vienen y van

el viejo las contempla

su vida fue cresta furiosa

retrocede


Probemos con la segunda petición:

ChatGPT:

Calma

Atardecer

Sol desciende lento

Tras el trabajo llega paz

Al fin


Claude:

Paz del Ocaso

Calma,

dorado silencio,

el sol se hunde en la tierra—

todo el peso de las horas se diluye

en luz.


Grok:


Tras el peso del día que quiebra la espalda,

el sol se derrama lento, casi sin ruido,

y la luz se hace miel sobre el horizonte cansado.

Todo calla. Respira.

La tarde me devuelve lo que el reloj me había robado.


esto no es un cinquain de 2-4-5-6-2 sílabas. Se le indica este hecho a Grok y el sistema lo modifica.

Cansado

tras larga jornada

el sol se tiñe de calma

y el alma respira hondo al fin

atardecer



12/1/26

De las cosas pálidas

 

En De las cosas pálidas (La Bella Varsovia, 2025), Alberto Santamaría continúa una línea de trabajo muy definida dentro de su trayectoria: la poesía entendida como un espacio de pensamiento, pero también como una práctica situada, consciente de sus límites materiales, lingüísticos y perceptivos. No se trata de poesía que aspire a tratar grandes problemas, sino de uno que examina con atención aquello que suele quedar en segundo plano: lo borroso, lo incompleto, lo que apenas se sostiene en la mirada, lo nimio. Ahí se sitúa el territorio del libro, en espacios desplazados que no son solo geográficos, sino también emocionales y mentales: márgenes de la memoria, zonas opacas del afecto, lugares donde el amor o el recuerdo ya no son plenamente accesibles.

El poemario dialoga de manera constante con preguntas que rayan la filosofía: ¿hasta dónde puede llegar el lenguaje?, ¿qué implica mirar?, ¿qué se pierde cuando se intenta contar una experiencia? Estas cuestiones no aparecen formuladas de modo abstracto, sino encarnadas en escenas, objetos, gestos y reflexiones breves que se abren paso entre lo cotidiano y lo conceptual. La escritura avanza con cautela, consciente de que toda afirmación es provisional. 

De las cosas pálidas puede abordarse como un recorrido por lo imprevisto, una constelación dispersa sin jerarquías claras o incluso como una reunión de restos a los que nadie presta atención. Sobre ese fondo fragmentario insiste una idea que vuelve una y otra vez: la importancia de estar. No como consigna vacía, sino como aceptación de una presencia siempre inestable, ligada a un tiempo que se escapa mientras ocurre. El libro asume ese presente frágil como único lugar posible desde el que pensar y actuar, sin promesas de trascendencia ni refugios idealizados.

Santamaría construye una dicción reflexiva, irregular, a ratos entrecortada, que combina recogimiento y distancia crítica. La ironía, leve pero persistente, impide que el tono se cierre sobre sí mismo y lo mantiene abierto a la ambigüedad. Todo ello genera una atmósfera reconocible: los poemas parecen escritos desde un tiempo suspendido, ese momento indefinido en el que la actividad se detiene y solo queda observar. Como si la escena fuera siempre la misma: una tarde apagada en la periferia, cuando ya no ocurre nada y, precisamente por eso, todo puede ser pensado.

Uno de los logros del libro es la integración de una sensibilidad crítica hacia el mundo contemporáneo sin convertir el poema en un mitin La dimensión social y política está presente, pero no como consigna, sino como atmósfera: una conciencia de precariedad, de desgaste y de intemperie que afecta tanto a las relaciones como a los paisajes y a los lenguajes. Aun así, el tono no deriva hacia el sarcasmo ni hacia el cinismo: hay distancia, pero también una voluntad clara de permanecer. El poema se convierte así en un lugar desde el que habitar el mundo, aunque sea de manera frágil y temporal.

A lo largo del libro se despliega, además, una reflexión continua sobre los propios mecanismos de la experiencia estética. Aparecen textos que interrogan la forma en que vemos, cómo se construyen las imágenes, qué papel juega el soporte material del poema, cómo opera la imaginación o de qué modo el error puede abrir nuevas posibilidades expresivas. Todo ello conforma una suerte de teoría implícita del arte, no sistemática, pero sí persistente, que se va revelando a medida que el lector avanza.

La escritura es depurada, con versos breves y estrofas contenidas que favorecen la concentración y el silencio. A veces esos versos parecen fragmentos de una métrica mayor desarmada, pero su fuerza reside precisamente en esa condición: piezas autosuficientes, tensas, donde cada palabra carga con un peso específico. La sencillez aparente es fruto de una elaboración rigurosa. 


10/1/26

Infinite Monkeys

 


Infinite Monkeys es un juego que explora la famosa hipótesis de que si ponemos a un número infinito de monos a teclear al azar letras en máquinas herramientas acabarán, dándoles suficiente tiempo, de escribir alguna obra de Shakespeare. En anteriores entradas de Biblumliteraria referidas a la lingüística computacional ya vimos que matemáticamente esto es tan extremadamente improbable que puede considerarse imposible. Ha habido, incluso, pruebas prácticas como la descrita en este artículo

El programa Infinite Monkeys se presenta como un juego deliberadamente absurdo que convierte esa conjetura citada en una experiencia interactiva y prolongada. El objetivo no es ganar en el sentido tradicional, sino presenciar —y sufrir— el proceso: conseguir que un grupo de monos escriba, letra a letra y de forma completamente aleatoria, la primera escena del primer acto de El rey Lear de Shakespeare. Cada acierto individual, cada letra que por puro azar coincide con la correcta, es recompensado con dinero virtual, que el jugador puede reinvertir en contratar más monos o en motivarlos para que escriban más rápido mediante pósters inspiradores o árboles de plátanos. Incluso la música y los efectos de sonido pueden activarse o desactivarse, como un pequeño alivio mientras se espera lo inevitablemente lento.

El jugador no puede pensar que va a ganar el juego pero sí desesperarse viendo que los aciertos son mínimos, si los hay. No es que no pueda escribirse El Rey Lear, es que ni siquiera se forma una frase.  El sistema de fuerza bruta que pretende defender la hipótesis de los monos infinitos necesitaría también un tiempo infinito pero además elevado a una potencia (matemáticamente hablando no es lo mismo infinito que infinito al cubo, por ejemplo). 

Para ilustrar la magnitud del problema, el programa se apoya en cifras concretas. La primera escena de El rey Lear utilizada en el juego tiene más de catorce mil caracteres. Al simplificar el texto —unificando espacios, usando solo mayúsculas e incluyendo un conjunto limitado de signos de puntuación— se trabaja con un alfabeto de 34 símbolos posibles. El número de combinaciones distintas que pueden formarse con esa longitud es 34 elevado a 14.326, una cifra tan descomunal que supera con creces cualquier magnitud física conocida, incluso el número de átomos del universo. Entre todas esas combinaciones, solo una es la correcta. La probabilidad de obtenerla al azar es tan pequeña que el experimento solo tiene sentido si se concede a los monos tiempo infinito… y quizá inmortalidad.  Ante esta perspectiva, el juego opta por un compromiso práctico. En lugar de esperar a que un único mono escriba el texto completo de una sola vez, los monos trabajan colectivamente y los errores simplemente se ignoran. El texto se construye letra a letra, validando cada acierto de inmediato. Desde un punto de vista estricto, esto “hace trampa” respecto al experimento original, pero es una trampa necesaria. Esperar hasta el fin del universo no resulta especialmente divertido; en cambio, observar a un ejército de monos aporreando teclas, avanzando de manera ridículamente lenta pero visible, convierte una abstracción matemática en una experiencia tangible, irónica y, sobre todo, memorable.

Puede descargarse desde este enlace.


7/1/26

Copy is all you need

 


Los modelos tradicionales de generación de texto funcionan seleccionando palabras secuencialmente de un vocabulario fijo y predeterminado. Sin embargo, investigadores de Tencent AI Lab y el Instituto de Tecnología de Beijing propusieron a finales del 2023 una aproximación radicalmente diferente que reformula este proceso como una serie de operaciones de copiar y pegar fragmentos de texto desde colecciones existentes. Esta metodología, implementada en un modelo llamado COG (Copy-Generator), representa un cambio de paradigma en cómo concebimos la generación automática de lenguaje.

La idea fundamental es que, en lugar de predecir el siguiente token de un vocabulario estático, el modelo busca y recupera frases completas de contextos específicos dentro de documentos existentes. Estas frases pueden ser de longitud variable, desde palabras individuales hasta expresiones multi-palabra, y lo crucial es que cada frase mantiene su representación contextualizada original. El sistema construye una tabla de frases mediante codificadores que computan representaciones vectoriales para cada segmento de texto, indexándolas usando herramientas eficientes de búsqueda vectorial. Durante la generación, en cada paso de decodificación, el modelo busca la frase más adecuada de esta colección y la añade al prefijo actual.

Esta aproximación ofrece ventajas significativas sobre los modelos neuronales tradicionales. Primero, al seleccionar frases en contextos específicos en lugar de tokens aislados, permite representaciones más precisas y selecciones más acertadas. Segundo, facilita la adaptación sin entrenamiento a nuevas fuentes de conocimiento, simplemente actualizando la colección de textos de manera modular, lo que beneficia escenarios como la adaptación a dominios específicos. Tercero, al generar múltiples tokens simultáneamente en un solo paso, reduce el número total de pasos de decodificación, mejorando la eficiencia de inferencia.

Los experimentos realizados sobre el benchmark WikiText-103 demostraron que COG supera sustancialmente a los sistemas estándar tanto en métricas automáticas como en evaluación humana. Específicamente, obtuvo una puntuación MAUVE de 26.14 frente a 23.43 del mejor baseline, y en preferencia humana alcanzó un 48% frente al 28% del modelo Transformer tradicional. Incluso usando búsqueda codiciosa (greedy search), que típicamente causa problemas de degeneración, COG superó a Transformers con nucleus sampling, demostrando mayor robustez. La eficiencia de inferencia resultó comparable a modelos autorregresivos a nivel de token gracias a la reducción de pasos de decodificación, ya que las frases copiadas frecuentemente contienen múltiples tokens.

El modelo también demostró capacidades excepcionales de adaptación a dominios específicos sin entrenamiento adicional. Al cambiar la colección de textos de WikiText-103 a Law-MT, un corpus legal, COG superó incluso a modelos Transformer específicamente entrenados en ese dominio. Además, al escalar la colección a un corpus más grande, el modelo obtuvo mejoras adicionales sin ningún entrenamiento extra, sugiriendo que puede entrenarse con corpus pequeños pero aprovechar información de colecciones mayores de forma plug-and-play.

La arquitectura de COG consta de tres componentes principales: un codificador de prefijos basado en Transformer con atención causal, un codificador de frases que usa BERT bidireccional para generar representaciones contextualizadas, y embeddings de tokens independientes del contexto que permiten generación de tokens individuales cuando no hay frases adecuadas disponibles. El entrenamiento combina una pérdida para predicción de frases usando InfoNCE con negativos en el batch, y una pérdida autorregresiva estándar a nivel de token. Este enfoque innovador abre nuevas posibilidades para la generación de texto, demostrando que copiar inteligentemente puede ser tan poderoso como generar desde cero.

La fundamentación matemática de COG reformula la generación de texto reemplazando la distribución softmax tradicional pθ(xᵢ = w|x<ᵢ) = exp(vw · hᵢ) / Σw'∈V exp(vw' · hᵢ) sobre un vocabulario fijo V por una distribución sobre frases contextualizadas p(k|x<ᵢ) ∝ exp(pk · qᵢ), donde pk es la representación de la frase k y qᵢ la del prefijo, estableciendo un espacio vectorial compartido donde el producto punto mide la idoneidad semántica. El codificador de frases logra eficiencia mediante una arquitectura que primero genera representaciones bidireccionales D̂ ∈ ℝᵐˣᵈᵗ para un documento, luego aplica dos MLPs produciendo Dₛₜₐᵣₜ y Dₑₙᵈ en ℝᵐˣ⁽ᵈ/²⁾, y construye cualquier frase como PhraseEncoder(s, e, D) = [Dₛₜₐᵣₜ[s]; Dₑₙᵈ[e]], almacenando solo 2m vectores en lugar de O(m²) representaciones de frases. 

El entrenamiento utiliza la pérdida contrastiva InfoNCE: Lₚ = -1/n Σₖ log [exp(qₖ · pₖ) / (Σₚ'∈Pₖ exp(qₖ · pₚ') + Σw∈V exp(qₖ · vw))], que maximiza la similitud entre prefijos y sus continuaciones correctas mientras las distingue de negativos duros del mismo documento, complementada con la pérdida autorregresiva estándar Lₜ para mantener generación a nivel de token, combinándose como L = Lₚ + Lₜ. La inferencia enfrenta el problema de Maximum Inner Product Search sobre miles de millones de frases mediante una estrategia coarse-to-fine: primero recupera K≈1024 documentos relevantes usando DPR y FAISS, luego busca exhaustivamente sobre sus frases el máximo k* = argmaxₖ∈P' (pk · qᵢ). La decodificación puede ser codiciosa seleccionando directamente el máximo, o mediante nucleus sampling convirtiendo puntuaciones en probabilidades p(k|qₜ) = exp(pk · qₜ) / Σₖ' exp(pₖ' · qₜ) y muestreando del subconjunto con masa acumulada p=0.95. El algoritmo de segmentación para entrenamiento implementa forward maximum matching, buscando en cada posición el prefijo más largo que aparezca en otros documentos para cortarlo como frase, aproximando búsqueda exhaustiva O(N·m²) a O(K·m²) mediante restricción a documentos similares, mientras la evaluación emplea MAUVE que modela distribuciones como mezclas gaussianas en espacio latente y computa divergencia de frontera, junto con métricas de repetición Rep-n y diversidad que capturan degeneración y riqueza léxica mediante productos de unicidad de n-gramas.Claude es IA y puede cometer errores. Por favor, verifica nuevamente las respuestas.

El artículo puede leerse en este enlace.



5/1/26

Generación de poemas

 



AI Poem Generator es un generador de versos que redacta un poema sobre un tema que introduce el usuario al principio.

Con una misma petición puede generar hasta tres poemas diferentes. 

Utiliza ChatGpt.

Puede usarse desde este enlace.

Por ejemplo, introduciendo este prompt  "sobre la alegría de ver nacer  aun hijo. En español", el resultado es:

En la sala llena de luz,
un susurro, un suave arrullo,
un latido que ya se siente,
la vida despierta en un murmullo.

Pequeñas manos recién llegadas,
un rostro que brilla como el sol,
los ojos que miran con inocencia,
un amor que crece en el corazón.

La alegría estalla como flores,
cada risa, un canto de estrella,
los días nuevos traen promesas,
en cada paso, la vida se sella.

El mundo se viste de colores,
los sueños despiertan en su andar,
cada pequeño gesto es un regalo,
un viaje eterno por comenzar.

En la ternura de un abrazo,
se siente el eco de un hogar,
la alegría de ver nacer,
un hijo es un mágico despertar.


Si el prompt es más largo, más elaborado, el resultado es también más trabajado. Por ejemplo, pidiendo "Redacta un soneto que trate sobre el recuerdo de la niñez, que es gozoso pero también melancólico y amargo por el recuerdo de los que se han ido. Utiliza un estilo de prosa contemporáneo, con escasa adjetivación e ideas bien concretadas. En español.", obtenemos:

En el rincón del alba risueña,
donde el sol despertaba sueños,
las risas bailaban en el aire,
voces de amigos, ecos sin dueño.

Corremos tras las sombras al río,
el reflejo de un tiempo lejano,
las manos entrelazadas en juego,
con cada paso, un instante humano.

Pero en la brisa se cuela el silencio,
sombra de aquellos que ya no están,
sus risas se ahogan en el recuerdo,
como hojas secas que el viento va.

Y en esa mezcla de luz y dolor,
la niñez vive, aunque se marchó.

Si eliminamos la restricción de que sea un soneto, pero con la misma petición, tenemos:

En el jardín de la infancia
las risas eran ecos,
puentes de colores
que cruzaban el tiempo.
El sol se filtraba a través de las hojas,
las sombras cortaban el aire,
y mis pies descalzos
buscaban la brisa tibia.

Construía castillos en la arena,
habitaciones de aire,
donde todo era posible,
donde el viento me hablaba.
Las tardes se estiraban,
pintando el cielo de anaranjado
mientras las estrellas comenzaban
a dudar de su propio brillo.

Recuerdo el chasquido de las puertas,
el aroma de la tierra húmeda,
y aquellas risas compartidas,
añoradas y presentes
aún en el silencio,
susurros que se escapan
entre las páginas del tiempo.

Pero hay sombras que acarician
el corazón en su vuelo,
caras que se desvanecen
como el humo de un recuerdo.
Una risa que falta
en cada reencuentro,
una mirada que perdí
entre la niebla de los años.

Siempre hay una grieta,
un resquicio que duele,
una canción que se ahoga
con la ausencia que pesa,
cuando la niñez se vuelve nostalgia,
y cada rincón guarda un eco,
una promesa de lo que fue,
un susurro de lo que se perdió.

Camino entre estos vestigios,
con el corazón dividido,
entre la luz del juego
y la sombra del adiós.
Y en cada paso hacia adelante,
cargamos con el peso
de los que se fueron,
de los que aún viven en nosotros,
desdibujados pero intensos,
como un atardecer que promete,
aunque no vuelva a ser igual.

Así, en este laberinto de memorias,
donde el gozo se entrelaza con el dolor,
camino con la esperanza
de que el recuerdo no se apague,
de que en cada reencuentro
se encienda una luz,
un abrazo infinito
que atraviese la distancia,
y que la niñez,
aunque lejana,
siga siendo hogar.




3/1/26

Hengki Koentjoro

 


Hengki Koentjoro es un fotográfo excepcional y de mucho talento. 

Hengki Koentjoro es un fotógrafo indonesio de renombre internacional, cuya obra se ha consolidado como una de las expresiones más evocadoras de la fotografía en blanco y negro contemporánea. Nacido en Semarang, Java Central, Indonesia, en 1963, Koentjoro encontró su primera cámara a los once años, un regalo que encendió una pasión profunda por capturar el mundo a través del lente. La obra de Hengki Koentjoro es un testimonio del poder expresivo del blanco y negro: logra transformar la naturaleza y las experiencias humanas en imágenes que invitan a la contemplación, a la introspección y a encontrar significado en la simplicidad misma. Su visión es a la vez atemporal y profundamente emocional, un puente entre luz y sombra donde el espectador se detiene a reencontrarse con lo esencial.

Su trayectoria artística formal comenzó en el Brooks Institute of Photography en Santa Bárbara, California, donde se especializó no sólo en producción de video, sino también en el arte de la fotografía en blanco y negro, técnica que definiría su práctica artística a lo largo de toda su vida. A su regreso a Indonesia, Koentjoro se estableció en Yakarta, trabajando como videógrafo y editor independiente para documentales de naturaleza y perfiles corporativos, mientras desarrollaba paralelamente su vocación por la fotografía artística en blanco y negro. 

La obra de Koentjoro va mucho más allá de la simple documentación. Explora el dominio espectral entre luz y sombra, revelando una paleta infinita de grises que transforma escenas naturales en meditaciones visuales profundas, buscando capturar la esencia espiritual de la naturaleza, ya sea en bosques, montañas, océanos o paisajes urbanos, y celebra la complejidad dentro de lo minimalista. La influencia del minimalismo y de la estética Zen es evidente en muchas de sus imágenes: el espacio negativo toma tanto protagonismo como el sujeto, creando imágenes que parecen silenciosas pero resonantes, donde la naturaleza se presenta en toda su profundidad meditativa. Koentjoro reduce la escena a los elementos estrictamente necesarios, buscando composiciones limpias y equilibradas. A menudo utiliza espacios negativos amplios, que refuerzan la sensación de soledad, vastedad o quietud. Este vacío visual no es ausencia, sino un recurso activo que permite que el sujeto respire y adquiera mayor fuerza simbólica.

Sus preferencias son los paisajes montañosos y neblinosos de Java y otras regiones de Indonesia, donde las formas de la tierra y el cielo parecen entrelazarse en un diálogo silencioso. También, las escenas costeras y marinas, explorando la textura y el movimiento del agua como símbolo de vida, fluidez y esencia. Incluso ha hecho series de fotografías bajo el agua (como en su serie Monohydra), donde la ausencia de color resalta formas, líneas y atmósferas únicas, lejos de una documentación convencional de biodiversidad y más cerca de una expresión artística introspectiva. Otros temas que ha explorado son las series documentales sobre comunidades, paisajes rurales y escenas introspectivas que combinan humanidad y naturaleza.  

Técnicamente, logra un control excepcional de la gama tonal, trabajando una amplia gradación de grises, evitando contrastes abruptos salvo cuando la composición lo exige. Sus imágenes se caracterizan por transiciones suaves entre luces y sombras, creando una sensación envolvente y casi etérea. La luz raramente es dura; suele ser difusa, filtrada por niebla, nubes o agua, lo que refuerza el carácter introspectivo de sus paisajes. Este tratamiento tonal contribuye a una atmósfera silenciosa y contemplativa, donde la imagen parece suspendida en el tiempo. La luz no actúa como protagonista, sino como un elemento modelador que revela lentamente la forma, del mismo modo que un escultor descubre una figura dentro del bloque de piedra. Muchas de sus imágenes se realizan con tiempos de exposición prolongados, especialmente en escenas marinas o con niebla, lo que suaviza el movimiento del agua o de las nubes y aporta una cualidad onírica a la imagen. Este recurso técnico no es un artificio, sino una extensión de su búsqueda estética: transformar lo efímero en algo sereno y duradero. El procesamiento digital —o en etapas anteriores, el trabajo en cuarto oscuro— es cuidadoso y contenido. Koentjoro evita manipulaciones excesivas; su edición está orientada a refinar la intención original, enfatizando texturas, profundidades y contrastes internos sin romper la naturalidad de la escena.

La fotografía de Koentjoro ha sido ampliamente premiada y exhibida en prestigiosos concursos y espacios internacionales: Ha publicado varias monografías y colaborado con editoriales internacionales, presentando sus series más significativas como libros de arte.

Se puede disfrutar de su obra en estos enlaces: su página, Facebook, Instagram.



2/1/26

GPTMB 2026

 


Se anuncia el Congreso The Third International Conference on Generative Pre-trained Transformer Models and Beyond (GPTMB 2026= que se celebrará en Niza del 5 al 9 de julio de este 2026.

En este momento, está abierta la convocatoria para presentar ponencias para que sean evaluadas por el comité de selección. El plazo estará activo hasta el 14 de marzo. Habrá sesiones presenciales y on-line.

Los trabajos que se admiten a revisión deben versar sobre: 

Fundamentos de la IA generativa

Modelos transformadores generativos pre-entrenados (GPT)

Modelos basados en transformadores y LLM (Large Language Models, Modelos de Lenguaje de Gran Tamaño)

Combinación de modelos GPT y modelos de aprendizaje por refuerzo

Creatividad y originalidad en herramientas basadas en GPT

Taxonomía del entrenamiento de LLM basado en contexto

Aprendizaje profundo y LLM

Generación aumentada por recuperación (RAG) y ajuste fino (fine-tuning) de LLM

LLM y aprendizaje por refuerzo con retroalimentación humana (RLHF)

LLM (autorregresivos, aumentados por recuperación, autoencoders, aprendizaje por refuerzo, etc.)

Recursos computacionales para el entrenamiento de LLM y para aplicaciones basadas en LLM


LLM

Taxonomía de los Modelos de Lenguaje de Gran Tamaño (LLM)

Características del modelo (arquitectura, tamaño, datos de entrenamiento y duración)

Construcción, entrenamiento y ajuste fino de LLM

Rendimiento (precisión, latencia, escalabilidad)

Capacidades (generación de contenido, traducción, interacción)

Dominio (médico, legal, financiero, educativo, etc.)

Ética y seguridad (sesgo, equidad, filtrado, explicabilidad)

Aspectos legales (privacidad de datos, exfiltración de datos, derechos de autor, licencias)

Desafíos (integraciones, desajustes, sobreajuste, sub-ajuste, alucinaciones, interpretabilidad, mitigación de sesgos, ética)


Herramientas y aplicaciones basadas en LLM

Requisitos exigentes para acciones básicas y principios fundamentales

Métodos para la selección optimizada del tamaño y la complejidad del modelo

Mecanismos de ajuste fino y personalización

Alineación de interacciones humanas y acciones

Capacidades de entrada/salida multimodales (texto con datos visuales, de audio y otros tipos)

Aprendizaje adaptativo o continuo (optimización del entrenamiento, conciencia del contexto)

Amplio rango de idiomas y dialectos, incluida la expansión regional

Escalabilidad, comprensibilidad y explicabilidad

Herramientas para desarrollo de software, planificación, flujos de trabajo, programación, etc.

Aplicaciones en robótica, sistemas autónomos y objetivos en movimiento

Aplicaciones interdisciplinarias (finanzas, salud, tecnología, etc.)

Aplicaciones para el descubrimiento y la investigación científica avanzada

Requisitos computacionales y consumo energético

Técnicas eficientes (cuantización, poda, etc.)

Fiabilidad y seguridad de las aplicaciones basadas en LLM

Cocreación, código abierto y accesibilidad global

Consideraciones éticas (mitigación de sesgos, equidad, responsabilidad)


Modelos de lenguaje pequeños y modelos de lenguaje diminutos

Arquitectura y principios de diseño específicos de los modelos de lenguaje pequeños

Modelos de lenguaje diminutos para smartphones, dispositivos IoT, dispositivos de borde (edge) y sistemas embebidos

Herramientas para modelos de lenguaje pequeños (DistilBERT, TinyBERT, MiniLM, etc.)

Destilación de conocimiento, cuantización, baja latencia y optimización de recursos

Eficiencia energética para FPGAs y ASICs especializados en el despliegue de modelos

Modelos de lenguaje diminutos para aplicaciones de traducción en tiempo real y chatbots móviles

Lenguajes diminutos y aprendizaje federado para la privacidad

Modelos de lenguaje pequeños con visión para aplicaciones multimodales

Consideraciones de hardware (energía, cuantización, poda, etc.)

Modelos de lenguaje diminutos y aceleradores de hardware (GPU, TPU y ASICs personalizados para ML)


Problemas críticos relacionados con los datos de entrada

Conjuntos de datos: exactitud, granularidad, precisión, falsos/verdaderos negativos y positivos

Datos visibles frente a invisibles (privados, personalizados)

Extrapolación de datos

Sesgos de salida y conjuntos de datos sesgados

Sensibilidad y especificidad de los conjuntos de datos

Información falsa e incorrecta

Datos volátiles

Datos sensibles al tiempo


Problemas críticos en el procesamiento

Veracidad del proceso

Comprensibilidad, interpretabilidad y explicabilidad

Detección de sesgos e incorrecciones

Incorporación de retroalimentación interactiva

Incorporación de correcciones

Generación aumentada por recuperación (RAG) para la entrada de LLM

RLHF para el ajuste fino de la salida de LLM


Calidad de la salida

Sesgos en la salida y conjuntos de datos sesgados

Sensibilidad y especificidad de los conjuntos de datos

Salida consciente del contexto

Resumen de texto fino/grueso

Calidad de la preevaluación de datos (obsoletos, incompletos, falsos, ruidosos, etc.)

Validación de la salida

Detección y explicación de alucinaciones

Detección de resúmenes sesgados o incorrectos antes de su difusión


Educación y responsabilidad académica

Revisión de planes de estudio para integrar herramientas y metodologías basadas en IA

Concienciación del usuario sobre la confiabilidad de las salidas

Normas sobre infracción de derechos de autor

Herramientas contra el plagio y el autoplagio

Infracción de propiedad intelectual

Mecanismos para la verificación de referencias

Gestión de autorreferencias ocultas


Regulaciones y limitaciones

Regulaciones (licencias, pruebas, umbrales de cumplimiento, innovaciones descentralizadas/centralizadas)

Mitigación de los riesgos sociales de los modelos GPT

Captura de emociones y sensibilidad

Falta de memoria personalizada (individual) y recuerdos (hechos pasados)

Falta de pensamiento personalizado instantáneo (resúmenes personalizados)

Riesgo de decisiones basadas en GPTM

Conciencia de la IA

Descalificación inducida por la IA


Casos de estudio con análisis y pruebas de aplicaciones de IA

Lecciones aprendidas con herramientas existentes (ChatGPT, Bard AI, ChatSonic, etc.)

Analítica predictiva en salud

Diagnóstico médico

Imágenes médicas

Farmacología

Terapia basada en IA

Finanzas basadas en IA

Planificación basada en IA

Toma de decisiones basada en IA

Control de sistemas basado en IA

Educación basada en IA

Ciberseguridad basada en IA


Más información en este enlace.