25/12/25

Chip fotónico puede permitir un rendimiento mucho mayor en los LLMs

 


El desarrollo del chip óptico LightGen puede representar un avance significativo en la computación fotónica aplicada a la inteligencia artificial generativa, particularmente en tareas de visión inteligente a gran escala. 

Publicado en la revista Science con el título "All-optical synthesis chip for large-scale intelligent semantic vision generation", este trabajo liderado por  Yitong Chen, Xinyue Sun, Longtao Tan, Yizhou Jiang, Yin Zhou, Wenjun Zhang y Guangtao Zhai, de las universidades de Shanghai Jiao Tong y es en China, introduce un chip completamente óptico que integra más de dos millones de neuronas fotónicas en una estructura tridimensional. Es esta estructura 3D en la posición de las "neuronas" la que distingue a este nuevo chip de los habituales dispositivos fotónicos que tienen sus circuitos grabados en 2D. Por así decirlo, pasamos de un diseño plano de puertas fotónicas y conexiones planas a un diseño en 3D que permite un procesamiento paralelo, con los nodos operando simultáneamente en vez de secuencialmente. 

Como es bien sabido, los circuitos fotónicos permiten mayor velocidad y menor consumo que los basados en silicio. Los primeros mueven fotones a la velocidad de la luz mientras que los segundos deben mover electrones. 

La innovación clave radica en la integración de un espacio latente óptico que permite variar las dimensiones de la red neuronal a la velocidad de la luz, evitando conversiones dimensionales que consumen tiempo en sistemas fotónicos anteriores. Además, incorpora algoritmos de entrenamiento basados en técnicas bayesianas, independientes de los datos de referencia (ground-truth), lo que facilita el manejo de modelos generativos complejos sin depender de conjuntos de datos etiquetados exhaustivos. Experimentalmente, el chip ha demostrado capacidades en la generación de imágenes semánticas de alta resolución, eliminación de ruido, transferencia de estilos, creación de escenas tridimensionales y manipulación de imágenes coloridas complejas. Por ejemplo, puede procesar imágenes enteras de una sola vez gracias a su estructura en capas apiladas, superando el enfoque de de procesar la información poco a poco, por fragmentos, que se usa en otros chips fotónicos planos, lo que a menudo conlleva el que los fragmentos independientemente procesados no encajan al final con una  menor calidad del resultado. En pruebas realizadas, LightGen generó imágenes de animales y paisajes naturales, así como videos cortos en alta definición, con un rendimiento que iguala o supera a sistemas líderes como Stable Diffusion y StyleGAN.

En términos de rendimiento, el chip ofrece una velocidad de cómputo de extremo a extremo y una eficiencia energética que superan en más de dos órdenes de magnitud a los chips electrónicos más modernos, como el NVIDIA A100. Esto se traduce en un aumento de 100 veces en velocidad y eficiencia energética, junto con una densidad computacional 100 veces mayor en el mismo espacio físico. Estas métricas se obtuvieron en tareas que tradicionalmente demandan recursos masivos, como la generación de contenido visual de alta complejidad, donde los chips convencionales tienen limitaciones con tareas de computación intensiva. La ausencia de conversiones electro-ópticas reduce las latencias y el consumo de energía, ya que los fotones viajan sin resistencia, generan menos calor y permiten un paralelismo masivo inherente a la óptica.

Aunque el enfoque principal de LightGen está en aplicaciones de visión generativa, sus ventajas se extienden al funcionamiento de los grandes modelos de lenguaje (LLMs), que también forman parte del ecosistema de IA generativa a gran escala. Los LLMs, como GPT o Llama, requieren un poder computacional enorme tanto para la fase de entrenamiento como para la de generación de diálogo, consumiendo cantidades ingentes de electricidad y generando emisiones de carbono significativas. La computación óptica, como la aquí citada, aprovecha la velocidad inherente de la luz para acelerar las operaciones matriciales en las que se basan las matemáticas que hacen funcionar las redes neuronales y que son fundamentales en las arquitecturas de transformadores que subyacen en los LLMs. Así, se reducen los cuellos de botella en el procesamiento paralelo de tokens lingüísticos. 

En el contexto de LightGen, su capacidad para variar dimensiones de red a velocidad lumínica podría adaptarse a los requerimientos dinámicos de los LLMs, donde el escalado de parámetros —a menudo en miles de millones— exige flexibilidad y eficiencia. Esto no solo acelera la inferencia en tiempo real, crucial para aplicaciones conversacionales, sino que también hace viable el entrenamiento sostenible de modelos más grandes, mitigando la escasez de recursos computacionales que afecta al sector.

Adicionalmente, la escalabilidad de LightGen, con millones de neuronas integradas en un chip compacto, abre puertas a la implementación de modelos híbridos que combinen visión y lenguaje, como en sistemas multimodales. 

Más información divulgativa en este enlace


24/12/25

IA Titans

 


Titans es una nueva arquitectura de inteligencia artificial desarrollada por Google Research diseñada para abordar una de las mayores limitaciones de los modelos actuales: la memoria y el aprendizaje continuo. En lugar de funcionar como modelos convencionales (que solo “recuerdan” durante la sesión y olvidan al terminar), Titans introduce un módulo de memoria a largo plazo que puede aprender y actualizarse en tiempo real. 

Lo esencial de Titans es su capacidad para “memorizar mientras opera”, es decir, aprender y recordar nueva información sin necesidad de entrenamiento tradicional fuera de línea (fine-tuning). Esto implica que el modelo puede adaptarse a contextos dinámicos y retener información relevante para uso futuro, algo que los modelos basados en transformers no pueden hacer de forma nativa. 

Los modelos de lenguaje convencionales como los Transformers (por ejemplo, GPT, Gemini, etc.) tienen una ventana de contexto finita: no pueden manejar más de una cierta cantidad de tokens (palabras, frases o datos) a la vez. Cuando se excede esa ventana, los datos anteriores se olvidan o se vuelven inaccesibles, limitando tareas complejas como:

  • Comprender textos muy largos (libros, contratos extensos, investigaciones científicas),
  • Recordar conversaciones pasadas con coherencia,
  • Integrar aportes contextuales de múltiples sesiones,
  • Aprender de datos dinámicos sin reentrenar de cero. 

Este problema de "olvido" de lo que ya se hablado se denomina “catástrofe del olvido” en el campo del aprendizaje automático: el modelo aprende nuevos datos pero pierde habilidades o conocimiento previamente adquirido. Titans busca mitigar o superar esta limitación, permitiendo al modelo tener una memoria persistente que evoluciona con el tiempo sin perder lo aprendido previamente. 

Este nuevo de modelo, por tanto, surge como respuesta directa a esa limitación estructural citada, una de las más persistentes en los grandes modelos de lenguaje contemporáneos: la incapacidad de mantener y gestionar información relevante a muy largo plazo sin incurrir en costes computacionales prohibitivos o en mecanismos externos de recuperación de información. Desde la consolidación del Transformer como arquitectura dominante, la atención ha demostrado ser una herramienta extremadamente eficaz para modelar dependencias locales y de medio alcance, pero su complejidad cuadrática con respecto al tamaño del contexto impone un límite práctico al número de tokens que pueden procesarse de forma directa. Aunque diversas variantes —como los Transformers lineales, los modelos recurrentes modernos o los enfoques basados en segmentación— han intentado aliviar este problema, el artículo que introduce Titans parte de la premisa de que estas soluciones siguen tratando la memoria como un recurso limitado, estático o excesivamente simplificado, incapaz de capturar la riqueza estructural de contextos largos y cambiantes  

IA Titans no debe entenderse como un único modelo concreto, sino como una familia de arquitecturas profundas que incorporan explícitamente un módulo de memoria neuronal a largo plazo entrenado para aprender, olvidar y recuperar información durante la inferencia. Esta idea, que puede describirse como “learning to memorize at test time”, representa un cambio conceptual importante. En lugar de asumir que el conocimiento del modelo queda congelado tras el entrenamiento, Titans introduce un componente que adapta sus parámetros internos mientras procesa la secuencia, de forma controlada y regulada, actuando como un meta-aprendiz que optimiza su comportamiento de memoria en tiempo real. En este sentido, Titans no debe entenderse como un competidor directo de modelos como Gemini, GPT o Claude, sino más bien como una arquitectura que puede servir de base o complemento para ese tipo de modelos. La idea central es introducir un sistema de memoria neuronal a largo plazo que funcione de manera análoga, aunque no idéntica, a la memoria humana. 

Desde un punto de vista técnico, Titans combina varios tipos de memoria que operan a diferentes escalas temporales. La memoria de corto plazo cumple una función similar a la atención tradicional de los transformers, permitiendo un razonamiento preciso y detallado sobre el contexto inmediato. Esta parte del sistema es altamente flexible y sensible a los matices del lenguaje, pero también es volátil y limitada. A esta capa se le añade una memoria de largo plazo basada en redes neuronales profundas, que no se limita a guardar vectores estáticos, sino que aprende activamente a representar patrones, regularidades y conocimientos relevantes a lo largo del tiempo. Existe además una memoria más estable o persistente, que conserva información estructural fundamental, como conocimientos generales del dominio o reglas básicas, y que no se modifica fácilmente durante la inferencia. La interacción entre estas capas permite que el modelo mantenga coherencia a corto plazo mientras acumula experiencia a largo plazo.

La noción de “learns while it runs” no implica reentrenamiento completo ni ajuste global del modelo, sino la actualización de un módulo específico de memoria neuronal mediante un proceso inspirado en el aprendizaje online y en los mecanismos cognitivos humanos. Se hace la hipótesis de que los eventos inesperados o “sorprendentes” son más memorables, y traduce esta idea a un criterio matemático concreto: la sorpresa de una entrada se mide a partir del gradiente de una función de pérdida asociativa con respecto a los datos de entrada. Cuanto mayor es este gradiente, mayor es la discrepancia entre lo esperado y lo observado, y mayor es la probabilidad de que dicha información se incorpore a la memoria a largo plazo. Este enfoque permite que la memoria no almacene indiscriminadamente todo el flujo de tokens, sino que priorice aquellos fragmentos que aportan información nueva o relevante, reduciendo así el riesgo de saturación.

Desde un punto de vista técnico, la memoria de Titans no es un simple vector ni una matriz fija, como ocurre en muchos modelos recurrentes lineales o en arquitecturas de memoria externas. Se trata de una red neuronal profunda, típicamente un MLP con al menos dos capas, cuya expresividad supera la de los modelos lineales y permite capturar relaciones no lineales en el historial de datos. Al parecer, esta profundidad adicional es clave para representar dependencias complejas en contextos largos, algo que los mecanismos de memoria más simples no consiguen de forma efectiva 

Una diferencia esencial entre Titans y otros grandes modelos de lenguaje es, por tanto, la separación explícita entre memoria a corto plazo y memoria a largo plazo. En Titans, la atención —limitada a una ventana de contexto acotada— actúa como memoria de trabajo o memoria inmediata, altamente precisa pero de alcance restringido, mientras que el módulo de memoria neuronal cumple la función de una memoria persistente capaz de acumular información a lo largo de millones de tokens. A esto se suma un tercer componente, denominado memoria persistente, compuesto por parámetros "aprendibles" pero independientes de los datos de entrada, que codifican conocimiento general sobre la tarea y ayudan a estabilizar el comportamiento del modelo, especialmente en las primeras etapas de la secuencia.

Frente a los Transformers clásicos, la principal ventaja de Titans radica en su capacidad para escalar a contextos extremadamente largos sin que el coste computacional crezca de forma cuadrática. Los experimentos reportados muestran que Titans puede manejar ventanas de contexto superiores a los dos millones de tokens, manteniendo o incluso superando la precisión de modelos basados en atención completa en tareas como “needle-in-a-haystack”, modelado del lenguaje, razonamiento de sentido común, series temporales y análisis genómico. Siendo esto así, y en comparación con modelos recurrentes modernos como Mamba, Griffin o variantes de LSTM extendidas, Titans ofrece una memoria más expresiva, mecanismos explícitos de olvido y una integración más estrecha con la atención, lo que se traduce en un mejor equilibrio entre eficiencia y capacidad de recuerdo. 

No obstante, existen limitaciones claras en este modelo. En primer lugar, la arquitectura es más compleja que la de un Transformer estándar, lo que introduce nuevos hiperparámetros y decisiones de diseño, como la profundidad del módulo de memoria o la forma concreta de integrar memoria y atención. En segundo lugar, aunque la actualización de la memoria está diseñada para ser paralelizable y eficiente, sigue existiendo un coste adicional asociado a la gestión de gradientes y mecanismos de decaimiento, que puede complicar su implementación a gran escala. 

Titans se ha implementado en PyTorch y JAX, utiliza atención causal con ventanas deslizantes, proyecciones lineales normalizadas y convoluciones 1D separables para mejorar la eficiencia, e incorpora mecanismos de “weight decay” y "momentum" que actúan como puertas de olvido adaptativas. Estas puertas permiten que la memoria elimine información obsoleta cuando cambia el contexto, evitando la acumulación indiscriminada de datos y alineándose con modelos contemporáneos de memoria recurrente. Utiliza 760 millones de parámetros y gestiona 2 millones de tokens (equivalentes a 20 libros).

En cuanto a desarrollos futuros, existen ya sugerencias interesantes para integrar la memoria en modelos de lenguaje de gran escala, no como un módulo externo añadido tras el entrenamiento, sino como parte integral del diseño desde el inicio. En conjunto, Titans apunta hacia una generación de sistemas de IA que no solo procesan texto, sino que desarrollan una forma de memoria dinámica y adaptativa, más cercana a los procesos cognitivos humanos y mejor preparada para operar en entornos complejos y de larga duración.

Mas información en este artículo técnico y en este sitio web.






22/12/25

Si yo fuese Dios






 ME BASTA ASÍ



Si yo fuese Dios
y tuviese el secreto,
haría un ser exacto a ti;
lo probaría
(a la manera de los panaderos
cuando prueban el pan, es decir:
con la boca),
y si ese sabor fuese
igual al tuyo, o sea
tu mismo olor, y tu manera
de sonreír,
y de guardar silencio,
y de estrechar mi mano estrictamente,
y de besarnos sin hacernos daño
—de esto sí estoy seguro: pongo
tanta atención cuando te beso—;
                                entonces,
si yo fuese Dios,
podría repetirte y repetirte,
siempre la misma y siempre diferente,
sin cansarme jamás del juego idéntico,
sin desdeñar tampoco la que fuiste
por la que ibas a ser dentro de nada;
ya no sé si me explico, pero quiero
aclarar que si yo fuese
Dios, haría
lo posible por ser Ángel González
para quererte tal como te quiero,
para aguardar con calma
a que te crees tú misma cada día
a que sorprendas todas las mañanas
la luz recién nacida con tu propia
luz, y corras
la cortina impalpable que separa
el sueño de la vida,
resucitándome con tu palabra,
Lázaro alegre,
yo,
mojado todavía
de sombras y pereza,
sorprendido y absorto
en la contemplación de todo aquello
que, en unión de mí mismo,
recuperas y salvas, mueves, dejas
abandonado cuando —luego— callas...
(Escucho tu silencio.
                    Oigo
constelaciones: existes.
                        Creo en ti.
                                    Eres.
                                          Me basta)
.



Un poema de Ángel González

20/12/25

El caballito rojo

 



El aire que salía de los respiraderos del metro se condensaba en pequeñas nubes que brillaban frente a los escaparates. El gran termómetro de mercurio colgaba de la fachada del Banco Cleveland North. Al niño le costó ver hasta dónde llegaba la barra azul porque las luces de las decoraciones creaban demasiados reflejos. Por fin, logró ver la raya. Dos grados, sólo dos grados. No había magia en el frío, solo una necesidad biológica de abrigos de lana cachemira y guantes de piel de ciervo. Los Miller caminaban por la acera con la inercia de los cuerpos que conocen su peso y su lugar en el mundo. El niño, Phil, tenía doce años, una edad en la que el mundo empieza a perder su unidad mística para fragmentarse en objetos, precios y distancias.

Aquella tarde, iban a ver las luces de Navidad, los escaparates de la First Avenue y a comprar pequeños regalos en Gimbels o en otra de los grandes almacenes del centro. Era una tradición. Cada año hacían lo mismo. 

Caminaban zigzagueando por la acera porque la calle estaba llena de gente, toda ella caminando apresurada, bajo el frío cortante, el aliento visible en el aire. Los coches llenaban la calzada y se tocaban el claxon los unos a los otros. La ciudad estaba llena de vida y el caos propio de un enorme gentío.

Sus padres avanzaban delante de él. Su padre, Arthur, con el mentón hundido en una bufanda de lana; su madre, Brenda, una mujer de movimientos breves y controlados, levantó el cuello de su abrigo para proteger sus mejillas. No hablaban. El silencio entre ellos no era hostil sino institucional, como el de dos socios que han revisado el contrato tantas veces que ya no necesitan leer las cláusulas en voz alta.

Había una mujer con un niño no lejos de la puerta giratoria. Phil la vio durante un segundo, quizás dos, antes de que el aire acondicionado del interior de Gimbels, sus luces titilantes y la música empalagosa lo cambiaran todo. Su padre consultó el reloj.

Dentro, era otro mundo. Las luces colgaban del techo en racimos de estrellas falsas. Guirnaldas doradas envolvían las columnas. Desde algún lugar invisible llegaba el Winter Wonderland, después el White Christmas, luego Bing Crosby cantando I will be home for Christmas y finalmente otra canción que Phil no conocía pero que sonaba exactamente igual que las anteriores. Su madre dijo algo sobre ir al segundo piso. Su padre asintió sin escuchar realmente.

El segundo piso olía a perfume. No a uno solo sino a todos mezclados en un único olor químico y dulzón que hacía que Phil quisiera respirar por la boca. Había mujeres detrás de mostradores de cristal con batas blancas como si fueran dentistas, pero eran dependientas. Ofrecían muestras en unas tiritas de cartón absorbente de color beige clarito. Una señora, muy delgada, vestida con una chaqueta azul tomó una, la olió y dijo que era un aroma demasiado empalagoso, que no le gustaría a su marido. Un caballero, con corbata y pantalón recién planchado, se detuvo ante un juego de maletas de piel en la sección de viaje. Discutía sobre la calidad de las costuras con un vendedor que sonreía con una dentadura demasiado blanca.

Phil, puedes subir si quieres al piso de los juguetes mientras nosotros compramos algo para la abuela y el tío George. Regresa a este mismo lugar en media hora, ¿de acuerdo? Planta dos, aquí es donde estamos. Junto a las escaleras mecánicas. Aquí, exactamente. ¿ok? – dijo su madre.

Y si, Dios no lo quiera, te pierdes, vas al mostrador de información que hay en cada piso y pides que nos avisen por megafonía.− terminó su padre.

Brenda y Arthur besaron a Phil y se alejaron en dirección a la sección de ropa interior con el objetivo de comprar calcetines y calzones, quizá algún pañuelo. Arthur no gustaba de hacer compras y el Department Store le agobiaba, así que deseaba acabar lo más pronto posible y regresar a casa. Estaba leyendo The Sun of Athens Square, un best-seller que le había recomendado su amigo Paul y con desgana había debido dejar la lectura para acompañar a su esposa a comprar los regalos. La Navidad le resultaba siempre molesta, como un estorbo en el camino de la vida que hay que sortear lo antes posible.  

Phil levantó la mano en señal de despedida y miró los letreros. Los juguetes estaban en el sexto piso, el último. Los directores de la tienda eran hábiles en el marketing. Colocaban sistemáticamente las cosas infantiles en la última planta, de modo que los clientes tuviesen que pasar por todas las demás. Así, aunque llegaran con poco ánimo de compras, siempre veían algo que les gustaba en alguno de los interminables pisos y acababan adquiriendo algún producto inesperado. 

Subió por las escaleras mecánicas. Phil observaba las plantas, desde la altura, a través del patio central. Había abetos, de plástico pero muy realistas, de cinco metros de altura, cargados de bolas de cristal que reflejaban las luces halógenas hasta convertirlas en destellos de sol. Un hilo musical de violines reproducía villancicos con una precisión matemática, despojados de cualquier sentimiento que no fuera el impulso de compra. En la escalera mecánica Phil contó los escalones. Dieciocho hasta el tercer piso. Ascendían desfilando delante de él con un traqueteo monótono. Veinticuatro hasta el cuarto. Los números lo calmaban. Alrededor, todo eran voces y el sonido fuerte y constante de la multitud que compraba porque era lo que se hacía en esta época del año. Comprar. Gastar. Demostrar amor mediante objetos envueltos en papel de colores brillantes y lazos dorados.

El tercer piso era de ropa de mujer. Maniquíes con sonrisas congeladas vestidos con colores que ninguna persona real se pondría. En el centro, había una  mesa con suéteres rebajados y un gran cartel que giraba anunciándolos. Phil miró a través de la gente y vio más gente, y detrás más luces, más música, más cosas apiladas en estantes hasta el techo.

El abuelo solía decir algo sobre la Navidad. Phil no recordaba exactamente qué. Algo sobre que antes era diferente, que significaba algo. El abuelo había muerto en primavera y ahora solo quedaban fragmentos de conversaciones que el muchacho no había entendido cuando ocurrieron y que ahora flotaban en su cabeza, ya sin contexto. Todo esto es basura, había dicho el abuelo una vez señalando un escaparate. Basura envuelta en papel bonito. Hay gente que no puede comer y nosotros comprando cosas que no necesitamos para nada. Hay que ayudar a la gente en el momento que lo precisa, no dejarlo para otro día. Su padre le había dicho que no hiciera caso, que el abuelo era viejo y estaba amargado. Por alguna razón, Phil recordaba todo aquello mientras subía a ver los regalos infantiles.

Subió al quinto piso. Juguetes.

Aquí la música era más fuerte. Aquí los niños gritaban con esa alegría aguda que suena casi como un silbato del árbitro de un partido de los White Socks. Las madres arrastraban carritos de compras llenos de cajas. Los padres esperaban contra las paredes con expresión de prisioneros de guerra. Un Santa Claus de plástico de dos metros de altura agitaba la mano mecánicamente. Arriba y abajo. Arriba y abajo. Su cara pintada sonreía sin ver nada.

Phil caminó entre los pasillos. Había muñecas que hablaban, que lloraban, que hacían cosas que las muñecas no necesitaban hacer, todas en cajas de plástico transparente.. Había juegos de mesa con nombres en letras grandes y brillantes que prometían diversión familiar. En uno de ellos, para cuatro jugadores, había que adivinar el nombre de unos animales ya extinguidos que acababan, todos ellos en ‘aurio’. Había pelotas y bates, y pistolas de plástico, y espadas, y cosas que hacían ruido, mucho ruido, porque el silencio no se vendía bien. Le gustaron los trenes eléctricos dando vueltas en circuitos interminables con arbolitos, casas y montañas modeladas con todo esmero. Peluches del tamaño de niños pequeños. Padres arrastrando a sus hijos de un pasillo a otro. Los empleados llevaban gorros de Santa Claus. Algunos sonreían. Otros tenían la mirada vacía de quien ha estado de pie demasiadas horas. En un pasillo, la gente se apartaba ante un robot de hojalata que daba pasos mecánicos de aquí para allá. Un juego de construcción. Una pelota que rebotaba más alto que las demás, según decía el cartel.

Al fondo, donde esperaba pacientemente una larga fila de chiquillos, había un Papá Noel de alquiler sentado en un trono de terciopelo rojo. Era un hombre regordete al que se veía cansado, con barba de nailon que se despegaba por el sudor, escuchando los deseos de niños que ya tenían todo lo que necesitaban. 

Phil, en su corta edad, instintivamente, sintió el vértigo de la abundancia. En su bolsillo derecho, sus dedos rozaron unos billetes doblados: su paga para golosinas, dinero que su abuela le había dado esa mañana como si le entregara un secreto de estado. 

Úsalo bien – le había dicho – que, si no, tu abuelo que está en el cielo se enfadará. Compra caramelos o cromos de beisbol si lo prefieres.

Continuó caminando y se topó con una gran cesta en el que había cientos de juguetitos pequeños, todos mezclados y a precios de saldo, uno, dos o tres dólares. Phil metió la mano en el bolsillo. Tenía tres dólares y algunas monedas.

Pensó en el abuelo otra vez. No sabía por qué. Quizás por toda esta gente comprando cosas que nadie necesitaba, algo que tanto enfadaba al abuelo. Quizás por las luces que brillaban con demasiada fuerza y le molestaban. El abuelo había hablado de hacer lo debido en el momento debido, justo cuando era preciso. Phil no sabía qué significaba exactamente. Hacer lo debido era algo invisible que nadie podía señalar. Le vino a la mente la mujer sentada junto a la puerta de entrada.

Tomó un caballito balancín de madera. Pequeño, de no más de diez centímetros de largo. Apretabas en la grupa del muñeco y se balanceaba durante varios segundos hasta que volvía a detenerse. Miró la etiqueta pegada en un costado. Dos dólares y cincuenta centavos.

Lo llevó a la caja. La cajera lo miró con indiferencia, procesó el pago y le entregó una pequeña bolsa de papel. Phil guardó el paquete en el interior de su abrigo. No sentía la excitación de la propiedad, sino la urgencia de una tarea pendiente.

Bajó las escaleras mecánicas en sentido contrario al flujo de la gente, esquivando abrigos de piel y bolsas de papel decoradas con dibujos de muñecos de nieve y cintas de colores. El centro comercial era una máquina que intentaba retenerlo, pero él buscaba el frío. Por instinto.

Atravesó la puerta giratoria. El frío lo golpeó como una pared. Rodeó el edificio hasta la entrada principal.

Allí seguían. La mujer y el niño.

La temperatura había bajado. Phil se acercó a ellos. No sintió lástima, esa emoción condescendiente de los adultos. Sintió una curiosidad física, la necesidad de satisfacer lo que su abuelo le decía y que, ahora, de pronto, parecía comprender. Al entrar, había visto a la señora sin hacerse ninguna pregunta. Ahora, tenía una respuesta.

Se detuvo frente a la mujer. Ella lo miró. Sus ojos eran oscuros, inteligentes, carentes de la sumisión que se espera de quien espera una limosna. Phil sacó la bolsa de papel y, sin decir nada, se la extendió.

Ella no la tomó de inmediato. Observó la mano del niño, luego su rostro. Vio la calidad de su abrigo, la limpieza de sus facciones, la soledad del chico. Finalmente, sus dedos delgados y fríos tomaron la bolsa. Sacó el caballo de madera roja. Lo sostuvo un momento, apreciando su peso, y se lo entregó a su hijo.

El niño pequeño agarró el juguete con una fuerza instintiva.

Entonces, la mujer hizo algo que Phil no esperaba. No le dio las gracias. No bendijo su generosidad. Se inclinó hacia delante y, con una mano que olía a intemperie y a jabón barato, le acarició la mejilla como haría una madre. Fue un gesto breve, una presión de piel contra piel que rompió la distancia social de la ciudad. Su sonrisa fue mínima, una grieta de humanidad en un rostro de piedra.

¡Phil!

La voz de su padre cayó sobre él como un peso de plomo. Sus padres estaban allí, a dos metros, con expresión enfadada. Su padre avanzó con pasos rápidos y lo agarró del hombro con una firmeza que rozaba el dolor.

—¿Pero qué crees que estás haciendo? —preguntó su padre, con la voz baja y tensa, la voz que usaba cuando la reputación de la familia estaba en juego.

—Me perdí —dijo Phil, con una calma que los enfureció más.

—¡Te hemos buscado por tres plantas! —exclamó su madre, acercándose y tirando de él para alejarlo de la mujer—. ¿Y qué hacías aquí? ¿Cerca de esta gente? No se puede tocar a desconocidos, Phil. Es peligroso. No sabes quiénes son, qué enfermedades...

Su padre lanzó una mirada de desprecio a la mujer. No era una mirada de odio, sino de asco ante la interrupción de su orden estético. Sacó un billete de diez dólares de su cartera de cuero y lo soltó en el cuenco de metal con un gesto de desdén, como si pagara por el derecho de retirar a su hijo de su presencia.

—Vámonos —ordenó el padre—. Ahora mismo.

Arthur levantó la mano, la agitó con vehemencia y un taxi amarillo paró al lado de la familia. Entraron y el hombre cerró con un portazo e indicó al chófer la dirección. El coche arrancó y se incorporó al intenso tráfico de la avenida.

—Podrían haberte robado —decía ella, su voz rebotando en los cristales tintados del taxi—. Esas personas no están ahí por casualidad. Usan a los niños para dar pena.  

Phil miró por la ventanilla. Vio a la mujer y al niño hacerse pequeños mientras el automóvil ganaba velocidad. Llegó a ver cómo el niño sostenía el caballo rojo contra su pecho.

—Lo siento —dijo Phil, mintiendo, sin sentir remordimiento. Y se acordó, nuevamente, del abuelo.

—Está bien —dijo su padre, suavizando el tono. — Pero la próxima vez, si quieres ayudar, dínoslo. Haremos una donación a una institución adecuada. Hay canales para estas cosas. La caridad no es algo que se haga en la calle, sin control. Es una cuestión de orden.

Phil, es muy bonito que quieras ayudar. De verdad. Pero hay formas de hacerlo. No puedes simplemente acercarte a extraños en la calle. — finalizó su madre.

Pero ella está aquí. El niño está aquí. Ahora. — replicó Phil.


 




19/12/25

PocketBook Verse Pro Color

 


El PocketBook Verse Pro Color  es la evolución del anterior PocketBook Color.

El PocketBook Verse Pro Color tiene una pantalla de 6 pulgadas con tinta electrónica E-Ink Kaleido™3, y 300 dpi (1072 × 1448 píxeles) en grises y de 150 dpi (536 x 724 píxeles) en color con contraste aceptable. La resolución es de 16 bpp (65536 grises) / 12 bpp (4096 colores).

El procesador es de cuatro núcleos (4x1.8 GHz). El sistema operativo es Linux 4.9.56.

Incluye luz frontal SMARTlight integrada, lo que te permite ajustar no solo el brillo, sino también la tonalidad de la luz para leer de noche sin cansar los ojos.  

Cuenta con 16 GB de almacenamiento interno. La memoria RAM es de 1 GB, que, aunque resulta pequeña en comparación a otros dispositivos, resulta suficiente para manejar la mayoría de libros electrónicos sin grandes retardos. 

La inclusión de Wi-Fi y Bluetooth (versión 4.0) permite descargar libros directamente o sincronizar una biblioteca en la nube, así como usar auriculares inalámbricos para escuchar audiolibros (soporta varios formatos de audio, como MP3, OGG o M4B).  Protección contra el agua IPX8. Conector USB-C.

En cuanto a formatos, el Verse Pro admite documentos en EPUB, PDF, MOBI, DOCX, FB2 y CBR/CBZ para cómics entre otros.  

La batería  es de 2100 mAh . Dispone de Text-to-Speech que convierte texto en voz en múltiples idiomas. 

Más información en este enlace.



La maravillosa obra de Su Hui (siglo IV, sin IA. Ni falta que le hacía)

 


La poetisa Su Hui ocupa un lugar fascinante en la historia del siglo IV y, en realidad, en la poesía de cualquier tiempo y lugar, no solo por su sensibilidad lírica, sino por poseer una de las mentes más matemáticas y estructuradas de la literatura. Se dice que Su Hui (蘇蕙), fue una niña prodigio que, según las crónicas, ya dominaba los caracteres chinos a los tres años. A los veintiún años compuso su obra más célebre: el Xuánjī Tú (璇璣圖), conocido como el “Mapa del instrumento armilar” o “Medidor estelar” que se ve en la imagen inferior.

En el convulso periodo de los Dieciséis Reinos, su vida se convirtió en leyenda cuando su esposo, el general Dou Tao, fue desterrado y ella quedó relegada por una concubina. Lejos de sucumbir al silencio, Su Hui canalizó su genio en la creación del Xuanji Tu, un tapiz de seda bordado con 841 caracteres organizados en una cuadrícula de 29x29 zonas, el famoso Mapa armilar. Esta obra no es un poema estático, sino un prodigio de la ingeniería literaria: un palíndromo multidireccional que puede leerse de miles de formas distintas —en espiral, en zigzag o por bloques de colores—, produciendo en cada recorrido versos coherentes y emotivos sobre la nostalgia y la fidelidad. Desde una perspectiva literaria, Su Hui trascendió las convenciones de su época al fusionar la artesanía textil con la complejidad combinatoria. Su técnica permitió que un solo cuerpo de texto contuviera una enorme cantidad de poemas posibles, lo que la sitúa como una pionera absoluta de la poesía visual y la literatura experimental siglos antes de que estos conceptos existieran en Occidente. Su hazaña fue tal que, según cuenta la tradición, al enviar el tapiz a su esposo, este quedó tan conmovido por su sofisticación y por el sentimiento de su mujer que despidió a su concubina y se reunió con ella. Así, la figura de Su Hui permanece como el máximo ejemplo de cómo el rigor intelectual y la belleza artística pueden converger para transformar el destino personal.

Nos encontramos ante una de las creaciones poéticas más asombrosas de toda la historia literaria, no solo por su belleza, sino por su complejidad intelectual. El texto no se limita a una única lectura: puede recorrerse de izquierda a derecha o al revés, de arriba abajo, en diagonal, en espiral desde el centro o siguiendo círculos concéntricos. Cada trayecto revela un poema diferente, todos coherentes, rítmicos y rimados, y todos girando en torno a los mismos grandes temas: el anhelo, la traición, el arrepentimiento y un amor que persiste incluso en el dolor.

El anillo exterior, formado por 112 caracteres, constituye un poema circular completo, considerado el primero y el más extenso de su tipo. En el interior de la cuadrícula se pueden extraer 2.848 poemas de cuatro versos y siete caracteres cada uno, además de numerosas composiciones de distintas longitudes según el método de lectura elegido. En el centro exacto del diseño hay un detalle profundamente simbólico: Su Hui dejó un espacio vacío, sugiriendo un carácter que no escribió. Ese carácter es 心 (xin), “corazón”. Copistas posteriores lo añadieron de manera explícita, pero en la versión original el vacío resulta aún más elocuente: miles de poemas orbitando alrededor del lugar donde estuvo su corazón.

Un ejemplo revelador es el poema que surge al leer el borde exterior desde la esquina superior derecha hacia abajo: un cuarteto de siete caracteres perfectamente rimado, que exalta la virtud, la fidelidad y el juramento al cielo, al tiempo que expresa una pena íntima y un amor doloroso. Al invertir la dirección de lectura, de abajo hacia arriba, emerge un poema completamente distinto, igualmente armonioso y cargado de sentido, donde el lamento y la constancia dialogan desde otra perspectiva emocional. 

Veámoslo:

Desde la esquina superior derecha y leyendo hacia abajo  encontramos esta estrofa de 4 versos y 7 caracteres chino cada una

仁智懷德聖虞唐, 

貞志篤終誓穹蒼, 

欽所感想妄淫荒, 

心憂增慕懷慘傷。

que en pinyin sería:

Rén zhì huái dé shèng yú táng, 

zhēnzhì dǔ zhōng shì qióng cāng, 

qīn suǒ gǎnxiǎng wàng yín huāng, 

xīn yōu zēng mù huái cǎn shāng.

Puede observarse la rima uniforme entre cada verso. ( táng / cāng / huāng / shāng), siendo su traducción:

«Los bondadosos y sabios atesoran la virtud, como los reyes santos Yao y Shun;

con voluntad firme juro ante los cielos de lo alto.

Aquello que venero y siento, ¿cómo podría ser licencioso o depravado?

La tristeza de mi corazón crece: el anhelo solo trae aflicción.»


Si ahora leemos de abajo hacia arriba, encontramos estrofa de 4 versos y 7 caracteres, que dice;

傷慘懷慕增憂心, 

荒淫妄想感所欽, 

蒼穹誓終篤志貞, 

唐虞聖德懷智仁。

En pinyin:

Shāng cǎn huái mù zēng yōu xīn,  

huāngyín wàngxiǎng gǎn suǒ qīn,  

cāngqióng shì zhōng dǔzhì zhēn,  

táng yúshèngdé huái zhì rén.

ahora, la rima es diferente pero también totalmente consistente: xīn and qīn, zhēn and rén.

Esta nueva estrofa puede traducirse como:

«Pena y tristeza: el anhelo colma mi corazón inquieto.

¿Fantasías licenciosas y disolutas, eso es lo que veneras?

Juro ante los cielos que mi constancia es verdadera.

Ojalá encarnemos la virtud, la sabiduría y la benevolencia de los reyes santos.»

Y, así, hasta casi 5000 poemas diferentes.

En el centro hay 8 caracteres alrededor del corazón central. Es la firma de la autora oculta en una frase: 

詩圖璇玑,始平蘇氏。 "EL poema-pintura la esfera Armillar , por Su de Shiping."

Leyendo al revés: 

蘇氏詩圖,璇玑始平。 "El poema-pintura de Su - La esfera Armillar comienza en paz" 

Esta combinación de poesía, estructura matemática y simbolismo ha fascinado durante siglos a eruditos, lectores y emperadores, que vieron en el Xuánjī Tú no solo un poema, sino un enigma literario sin precedentes.

Más que una obra poética, el trabajo de Su Hui es un universo textual: miles de versos nacidos de un solo gesto creativo, todos girando en torno a un corazón ausente y, precisamente por eso, inolvidable.



Congreso ELO 2026

 


El próximo Congreso anual de la Electronic Literature Organization tendrá lugar en Florida entre los días 15 y 18 de julio del próximo año 2026. En concreto, será en la University of Central Florida. Habrá charlas, talleres, paneles y exposición de trabajos.

En este momento, se ha abierto la convocatoria para la presentación de ponencias y trabajos de literatura digital en aras a que el Comité de Selección elija cuáles tendrán lugar en la conferencia.

El plazo está abierto hasta finales de enero del 2026. Puede encontrarse información más precisa en este enlace.

El "motto" de esta edición es (Un)Supervised [(No)Supervisado], un lema relacionado a cómo los modelos de desarrollo de los LLM no se supervisan en su generación de texto, pero el interés del congreso se amplía para abordar preguntas persistentes en el campo: ¿quién observa?, ¿quién lee?, ¿quién aprende sobre la literatura digital?, y especialmente, ¿cómo circulan y se reconocen las culturas de la e-lit más allá de esta institución?

Así, los temas que serán privilegiados en la selección son:

- Acceso a la E-Lit, antologías y prácticas de archivo

- Redes, comunidades y plataformas de E-Lit emergentes y en desplazamiento

- Creación crítica, humanidades digitales y crítica de la literatura electrónica

- IA generativa y agentiva, y creatividad computacional

- Imaginarios institucionales tras el retiro del apoyo federal

- Teorías, estéticas y prácticas de la resistencia

- Trabajo educativo antirracista, feminista y queer

- [No]ficciones y poéticas en Twine e hipertexto

- Realidades mixtas y extendidas, e imaginarios tecnológicos


16/12/25

Junta directiva de la Lit(e)Lat

 


La Red de Literatura Electrónica Latinoamericana, conocida como Lit(e)Lat, ha abierto una convocatoria para incorporar tres nuevos miembros a su Junta Directiva.  

Los roles disponibles están enfocados en áreas estratégicas para el desarrollo de la red. El primero de ellos es el de Comunicaciones, cuya responsabilidad principal será colaborar con la directiva actual en la gestión y actualización de todos los canales de difusión de la organización, desde la página web oficial hasta las diferentes plataformas de redes sociales, pasando por las listas de distribución de correo electrónico y otros medios de contacto con la comunidad. La segunda posición corresponde a Proyectos Editoriales, enfocada en impulsar y coordinar iniciativas de publicación, siendo la más importante el lanzamiento de una revista dedicada a la obra creativa y otros contenidos afines. El tercer puesto es el de Desarrollo Técnico y de Producción, orientado a liderar proyectos relacionados con la creación, producción y preservación del patrimonio digital de la red.

Estos nombramientos tendrán una vigencia de cuatro años. Es importante destacar que estas son posiciones de carácter voluntario y sin remuneración económica, y quienes las ocupen deberán mantener activa su membresía anual en la red, cumpliendo con el pago de la cuota correspondiente.

El procedimiento electoral se desarrollará en dos etapas claramente definidas. Durante la primera fase, que se extiende desde ahora hasta el último día del año 2025, cualquier miembro de la comunidad Lit(e)Lat puede presentar su candidatura de manera individual. La organización ha establecido que únicamente se aceptarán autoproclamaciones, descartando la posibilidad de que terceras personas nominen a candidatos. Quienes deseen proponer a alguien deberán contactar directamente con esa persona para motivarle a que presente su propia candidatura. Para formalizar la postulación existe un formulario específico donde cada aspirante debe redactar un texto breve explicando sus motivaciones para el cargo, su experiencia relevante y su perspectiva sobre cómo contribuiría al desarrollo del rol específico al que aspira.

La segunda fase comenzará el primer día de enero de 2026, cuando se publicará la papeleta electoral con toda la información proporcionada por cada candidato en sus formularios de inscripción. Tendrán derecho a voto todos aquellos miembros que mantengan su membresía activa, habiendo realizado el pago correspondiente al año 2025 o 2026. El periodo de votación se mantendrá abierto hasta el 15 de enero de 2026, aunque podría cerrarse antes si se alcanza una mayoría definitiva para cada una de las tres posiciones en disputa. Una vez finalizado todo el proceso de selección, la organización hará pública la identidad de los representantes elegidos y les convocará para participar en la primera sesión de trabajo de la Junta Directiva, programada para el viernes 23 de enero de 2026. Esta será la reunión inaugural donde los nuevos integrantes comenzarán oficialmente sus funciones y se integrarán a las dinámicas de trabajo del equipo directivo de la Red de Literatura Electrónica Latinoamericana.

 

9/12/25

Kentucky Route Zero

 


Kentucky Route Zero es un juego narrativo por capítulos. En este momento, hay cinco capítulos publicados. Fue creado y está siendo ampliado por Jake Elliott, Tamas Kemenczy y Ben Babbit.

Se trata de una aventura narrativa que se inscribe dentro del realismo mágico y que propone un viaje por una carretera oculta que serpentea bajo el subsuelo de Kentucky, atravesando cuevas y espacios imposibles. A lo largo de este trayecto clandestino circulan personajes enigmáticos, cuyas historias personales se entrelazan con un paisaje rural marcado por el abandono, la precariedad y la pérdida de sentido del llamado sueño americano.

El juego se desarrolló y publicó por episodios entre 2013 y 2020, estructurándose finalmente en cinco capítulos principales. A estos se suman varios interludios gratuitos que amplían y matizan la experiencia narrativa. El resultado completo está disponible en múltiples plataformas —ordenadores y consolas— y en diversas lenguas, lo que refuerza su vocación de obra cerrada y accesible, independientemente del formato desde el que se juegue.

Kentucky Route Zero se aproxima al llamado “walking simulator”: la acción se centra menos en el desafío mecánico y más en la exploración pausada, la observación y, sobre todo, el diálogo. El jugador encarna a Conway, un repartidor errante que aparentemente solo intenta completar un encargo: entregar una antigüedad. Sin embargo, ese objetivo inicial pronto se diluye en un recorrido cada vez más extraño, donde los espacios desafían la lógica cotidiana. Gasolineras vacías que esconden sótanos interminables, minas abandonadas convertidas en lugares espectrales, catedrales, museos dedicados a casas suburbanas o paisajes inundados funcionan como escenarios simbólicos cargados de memoria y duelo.

La historia se articula principalmente a través de conversaciones con otros personajes, y estas interacciones no son meramente decorativas. Las elecciones discursivas del jugador influyen en el estado emocional y el pasado de quienes encuentra: pueden determinar si alguien ha superado una relación rota, si ha logrado sobreponerse a una tragedia o cómo interpreta los acontecimientos que lo han marcado. De este modo, el juego convierte el diálogo en una herramienta narrativa fundamental, donde escuchar, acompañar y decidir qué decir resulta más importante que avanzar rápidamente.

Ambientado en una América rural golpeada por la globalización y por dinámicas económicas que exceden a los individuos, Kentucky Route Zero propone experiencias jugables en las que lo personal y lo estructural se cruzan constantemente. Las relaciones humanas aparecen condicionadas por fuerzas invisibles: deudas impagables, trabajos sin futuro, infraestructuras olvidadas. El tono gótico y lo inquietante no surgen como simple artificio estético, sino como una respuesta coherente a un entorno de desposesión y extrañamiento.

Puede accederse desde este enlace.






6/12/25

Colección de literatura digital ELO vol5

 


Las colecciones de la ELC se publican aproximadamente cada cinco años. Se buscan específicamente obras que privilegien el compromiso crítico, intencional y reflexivo con los medios de comunicación y los paisajes tecnoculturales que los producen; privilegien las pedagogías facilitadas por la literatura electrónica; respondan o reflexionen sobre cuestiones contemporáneas y urgentes de la cultura digital, como la privacidad, la vigilancia, los datos, los efectos medioambientales, los derechos digitales, la (des)información y el acceso; y, en última instancia, obras que vinculen la literatura electrónica con otros ámbitos y preocupaciones de la producción cultural.

Consideramos obras literarias elegibles aquellas que están fundamentalmente moldeadas por su naturaleza digital, ya sea que existan exclusivamente en pantallas, en formatos híbridos, impresas o en espacios físicos. Se aceptan obras creadas con Twine, bots, proyectos geolocativos, narrativas que tienen lugar a través del correo electrónico o las redes sociales, aplicaciones de libros, poesía sonora, visual o en Realidad Aumentada, fanzines, juegos, literatura generada por computadora, obras de fanfiction y otros.

Se valora especialmente:

- Artistas que aún no hayan publicado en una colección de literatura electrónica.

- Artistas que trabajan en comunidades donde la literatura electrónica es incipiente y/o que representan culturas de Oriente Medio y el norte de África, pueblos indígenas y naciones e islas de Asia.

- Estudiantes y artistas que hayan producido obras en clase o por su cuenta.

- Otros grupos, colectivos o laboratorios dedicados a todas las formas de escritura digital y literatura electrónica.

Más información en este enlace.



5/12/25

Kickresume


 

Kickresume es una aplicación especializada en crear, maquetar e imprimir CVs. Se trata de una plataforma integral de creación de currículums y cartas de presentación que utiliza inteligencia artificial. Emplea la tecnología GPT-4 de OpenAI para generar contenido personalizado según el puesto y la información del usuario, lo que la convierte en una herramienta muy potente para quienes buscan destacar en el mercado laboral actual.

La aplicación es principalmente un creador de currículums con más de 40 plantillas personalizables que son compatibles con ATS (Sistemas de Seguimiento de Candidatos) y tienen un aspecto profesional. Una de sus características más destacadas es el AI Resume Tailoring, que adapta tu currículum específicamente a la descripción del puesto que buscas y utiliza las mejores habilidades y palabras clave para mejorar tu currículum. Esta función es especialmente valiosa porque muchas empresas utilizan sistemas automatizados para filtrar las solicitudes antes de que lleguen a manos de reclutadores humanos.

La plataforma incluye más de 20,000 frases preprogramadas para currículums y cartas de presentación, cubriendo más de 3,200 puestos diferentes. Las plantillas están diseñadas por un equipo de expertos en recursos humanos y tipógrafos para garantizar una legibilidad óptima, un diseño visualmente atractivo y una optimización para el software ATS. Cada plantilla ofrece más de un millón de combinaciones de diseño posibles con esquemas de colores, fuentes y opciones de formato alternativos, lo que significa que puedes personalizar ampliamente tu documento para que refleje tu estilo personal sin comprometer la profesionalidad.

Está disponible como aplicación móvil para iOS y Android. 

KickResume ofrece, además, una base de datos de más de 1,500 ejemplos de currículos, incluyendo plantillas profesionales y currículos reales de postulantes que han conseguido empleo en empresas. Esta biblioteca de ejemplos sirve como inspiración y guía para para realizar el CV propio.

La versión gratuita ofrece 2 plantillas diferentes y permite crear un currículum profesional básico. Sin embargo, muchas opciones están bloqueadas y solo se puede acceder a ellas a través del Premium, que desbloquea todas las plantillas, todas las opciones de personalización y funciones adicionales.  

Una limitación importante es que actualmente no tiene opciones de idioma completas, haciendo todo principalmente en inglés.

Más información en este enlace.



3/12/25

Paper2Video

 


Crear un video explicativo de un artículo científico no es tarea fácil. Al menos, no es tarea que pueda hacerse en poco tiempo. Aplicaciones que permitan simplificar y mejorar este trabajo son cada vez más necesarias.

En un reciente artículo titulado Paper2Video: Automatic Generation from Scientific Papers, presentado por Zeyu Zhu, Kevin Qinghong Lin y Mike Zheng Shou del Show Lab, National University of Singapore se muestra un reciente desarrollo que puede descargarse de Github.

El trabajo aborda un problema crítico en la comunicación científica: la generación automática de vídeos de presentación académica a partir de artículos de investigación. Los vídeos de presentación académica se han convertido en un medio esencial para la difusión científica, siendo requeridos por muchas conferencias como material obligatorio de envío. Sin embargo, crear estos vídeos manualmente es extremadamente laborioso, requiriendo diseño de diapositivas, redacción de subtítulos, grabación por diapositiva y proceder a una dedición cuidadosa. Como media, el producir un vídeo de 2 a 10 minutos puede tomar 5 a 6 horas de trabajo.  

A diferencia de la generación de vídeo de ficción, los vídeos de presentación tienen características distintivas que incluyen integración multisensorial, la necesidad de mostrar múltiples figuras y una alta densidad de texto en la que casi todo es relevante y no puede ser eliminado. 

Los desafíos específicos a la hora de crear un video de este tipo incluyen: (a) "comprender" artículos de contexto largo con texto denso, así como crear múltiples figuras y tablas; (b) requerir la coordinación de múltiples canales alineados, incluyendo la generación de diapositivas, subtítulos, texto-a-voz, control del cursor y generación de avatares; (c) carencia de métricas de evaluación bien definidas sobre qué constituye un buen vídeo de presentación, particularmente en términos de transmisión de conocimiento y accesibilidad para la audiencia. 

Para permitir una evaluación correcta, los autores presentan el benchmark Paper2Video, compuesto por 101 artículos de investigación emparejados con vídeos de presentación grabados por los autores, junto con las diapositivas originales y metadatos de identidad del presentador. Los datos provienen de conferencias recientes de inteligencia artificial: 41 de aprendizaje automático (NeurIPS, ICLR, ICML), 40 de visión por computador (CVPR, ICCV, ECCV) y 20 de procesamiento de lenguaje natural (ACL, EMNLP, NAACL).

Las estadísticas muestran que los artículos contienen en promedio 13,300 palabras, 44.7 figuras y 28.7 páginas. Las presentaciones contienen un promedio de 16 diapositivas y duran 6 minutos 15 segundos, con algunos ejemplos alcanzando hasta 14 minutos. Esta diversidad proporciona un valioso conjunto de datos para evaluar la generación automática.  Los autores proponen cuatro métricas específicamente diseñadas para evaluar vídeos de presentación académica desde dos perspectivas complementarias: para la audiencia (transmisión fiel de ideas) y para el autor (visibilidad e impacto):

Meta Similarity: Evalúa la alineación de diapositivas, subtítulos y voz generados con los creados por humanos, utilizando modelos de visión-lenguaje (VLM) y embeddings de voz.

PresentArena: Emplea VideoLLMs como audiencia proxy para realizar comparaciones pareadas entre vídeos generados y hechos por humanos, con doble orden para reducir sesgos.

PresentQuiz: Mide qué tan bien el vídeo transmite el conocimiento del artículo mediante un cuestionario de opción múltiple que los VideoLLMs deben responder después de ver la presentación.

IP Memory: Evalúa cómo el vídeo ayuda a la audiencia a recordar al autor y su trabajo, simulando interacciones reales de conferencias.

El sistema PaperTalker

PaperTalker es el primer framework multi-agente para generación automática de vídeos de presentación académica. Se compone de cuatro módulos principales:

1. Slide Builder (Constructor de Diapositivas)

En lugar de usar formatos comunes como PowerPoint o XML, los autores emplean código LaTeX Beamer por tres razones: (i) LaTeX organiza automáticamente texto y figuras desde sus parámetros sin planificar posiciones explícitamente; (ii) Beamer es compacto y expresivo, representando el mismo contenido en menos líneas; (iii) proporciona estilos formales bien diseñados apropiados para presentaciones académicas.

El proceso incluye generación de código borrador, compilación para recoger diagnósticos de errores, y reparación iterativa. Una innovación clave es el Tree Search Visual Choice, un método novedoso para ajustar layouts finamente. Como los LLMs son insensibles a ajustes numéricos finos, este enfoque explora sistemáticamente variaciones de parámetros para generar múltiples ramas (por ejemplo, diferentes escalas de figuras: 1.25, 0.75, 0.5, 0.25), las concatena en una sola imagen, y luego usa un VLM para seleccionar la rama óptima. Este método desacopla la búsqueda discreta de layout del razonamiento semántico y resuelve confiablemente casos de desbordamiento.

2. Subtitle Builder (Constructor de Subtítulos)

Las diapositivas generadas se rasterizan en imágenes y se pasan a un VLM que produce subtítulos a nivel de oración y prompts de enfoque visual correspondientes. Estos prompts sirven como representación intermedia que vincula el habla con el cursor, permitiendo alineación temporal y espacial precisa.

3. Talker Builder (Constructor del Presentador)

Dado el retrato del autor y una muestra de voz, este módulo sintetiza un vídeo de presentador que entrega el contenido con la voz del autor y preservación fiel de identidad. Utilizan F5-TTS para síntesis de voz personalizada y modelos como Hallo2 o FantasyTalking para generación de cabezas parlantes.

Una innovación importante es la generación paralela por diapositivas. Inspirados en la práctica humana de grabar diapositiva por diapositiva y la independencia entre cada diapositiva, sintetizan el vídeo del presentador por separado para cada diapositiva y ejecutan estos trabajos en paralelo, reduciendo marcadamente el tiempo de generación en más de 6 veces.

4. Cursor Builder (Constructor del Cursor)

Para lograr alineación espacial-temporal del cursor, el sistema genera prompts para cada oración basados en las diapositivas. La ubicación espacial se determina usando modelos de uso de computadora (como UI-TARS) que pueden simular interacción del usuario con capturas de pantalla. La alineación temporal se logra con WhisperX, que extrae datos a nivel de palabra y los alinea con las oraciones correspondientes en los subtítulos.

Resultados experimentales

Los experimentos en Paper2Video demuestran la efectividad de PaperTalker. El sistema supera a las presentaciones hechas por humanos en un 10% en precisión de PresentQuiz y logra calificaciones comparables en estudios de usuarios, indicando que su calidad se aproxima al contenido creado por humanos. En evaluaciones humanas con escala de 1 a 5, los vídeos hechos por humanos obtienen 4.6, mientras que PaperTalker logra 3.8, superando significativamente otros métodos como Veo3 (2.2) y PresentAgent (2.8). 

Este trabajo representa un avance significativo hacia la automatización de la comunicación académica, liberando a los investigadores de tareas laboriosas de preparación de vídeos mientras mantiene alta calidad y fidelidad al contenido original. 



2/12/25

Pronombres

 


Pronombres, Rodolfo Mata & Carole Chargueron, es un videopoema en que se juega con los pronombres del idioma español que van apareciendo y moviéndose en una cabina de avión como fondo.

La obra aprovecha la dimensión visual de las palabras, su desplazamiento dentro del espacio reducido de la cabina, y distintas modulaciones de la voz en las que se reconocen acentos regionales y rasgos propios de diversas variantes del español —como la presencia del “vos” rioplatense o el “vosotros” peninsular—. También incorpora sonidos y usos vocales que se relacionan de manera particular con cada pronombre y que, en conjunto, generan paisajes sonoros.

La obra explora la gramática y los giros idiomáticos del español de forma sumamente creativa. Presenta los pronombres “en acción”, asignando un rol central a las voces de los pasajeros, que momentáneamente se apropian del deíctico. Esto resulta especialmente sugerente si se considera que los pronombres son palabras cuya referencia cambia constantemente; por ello, la interacción entre la voz y el avión se produce de manera natural.

Además, la propuesta dialoga con la poesía visual mediante el uso intencional de la tipografía, el color y las variaciones gráficas que acompañan el recorrido.