8/3/26

Mejorando la capacidad de los LLMs al generar código de programación

 


Aristidis Vasilopoulos (investigador independiente, Estados Unidos) presenta en ArXiv el artículo técnico Codified Context: Infrastructure for AI Agents in a Complex Codebase una nueva configuración  para mejorar el rendimiento y la coherencia de los LLMs cuando trabajan en crear  proyectos de software complejos. El trabajo se sitúa en el contexto del rápido crecimiento de herramientas de programación asistida por inteligencia artificial —como Copilot o sistemas de agentes autónomos— y aborda una limitación fundamental de estos sistemas: su incapacidad para mantener memoria persistente del proyecto a lo largo de múltiples sesiones de desarrollo.  

El estudio parte de una observación empírica: aunque los modelos de lenguaje poseen amplios conocimientos de programación, en la práctica carecen de memoria contextual estable sobre proyectos específicos. Cada sesión de trabajo comienza sin recordar decisiones de diseño previas, convenciones de codificación o errores ya detectados. Esto obliga al desarrollador a repetir instrucciones y explicaciones constantemente, especialmente en proyectos grandes donde el contexto supera el límite de las ventanas de entrada del modelo. 

Así, actualmente, si se le pide a un modelo de lenguaje (LLM) que ayude a programar una aplicación grande, se comporta como un programador con amnesia. Se le explican las reglas del proyecto, el sistema escribe algo de código, pero al día siguiente ya ha olvidado por completo la arquitectura del software y empieza a introducir errores absurdos. Tampoco puedes simplemente copiar y pegar todo el código y el manual del proyecto en cada sesión, porque el modelo se satura con demasiada información y termina ignorando partes importantes. 

Según el autor, los mecanismos habituales —como archivos de configuración o manifiestos iniciales que describen el proyecto— funcionan únicamente en proyectos pequeños o prototipos, pero no escalan adecuadamente a sistemas con decenas o cientos de miles de líneas de código.  

El problema central que analiza el artículo es, por tanto, cómo proporcionar a los LLMs una forma de memoria estructurada y persistente que les permita trabajar de forma coherente en proyectos complejos y a largo plazo. En lugar de considerar la documentación como un simple recurso auxiliar para humanos, el autor propone tratarla como una infraestructura operativa diseñada específicamente para ser interpretada por agentes de inteligencia artificial. Esta infraestructura permitiría transmitir conocimiento del proyecto a los agentes de forma sistemática, asegurando que puedan comprender convenciones, arquitectura y restricciones incluso cuando la sesión de trabajo es nueva.  

Para explorar esta idea, Vasilopoulos desarrolla un sistema experimental durante la creación de un proyecto real: un sistema distribuido en C# de aproximadamente 108.000 líneas de código, basado en un motor de simulación multijugador. El desarrollo se realizó durante setenta días de trabajo parcial y se apoyó casi exclusivamente en un agente de programación basado en LLM. En este contexto se diseñó y probó una infraestructura de “contexto codificado” compuesta por tres niveles principales de conocimiento estructurado.  

El primer nivel corresponde a lo que el autor denomina “constitución del proyecto” o memoria caliente. Se trata de un documento relativamente breve que se carga automáticamente al inicio de cada sesión con el agente. En él se incluyen las reglas fundamentales del proyecto: convenciones de nombres, estándares de calidad del código, comandos de compilación, patrones arquitectónicos y protocolos de orquestación entre agentes especializados. Su objetivo es proporcionar una base constante de información que el modelo debe tener presente en todo momento, sin consumir excesivo espacio en la ventana de contexto. 

El segundo nivel consiste en un conjunto de agentes especializados que actúan como expertos en dominios concretos del sistema. En el proyecto analizado se desarrollaron diecinueve agentes de este tipo, cada uno definido mediante especificaciones detalladas que incluyen su ámbito de actuación, herramientas disponibles, errores frecuentes y conocimiento técnico relevante. Algunos agentes se centran en áreas críticas como redes, arquitectura del sistema o depuración de errores. La idea es que, cuando una tarea específica lo requiere, el sistema invoque automáticamente al agente más adecuado, evitando que un único modelo generalista tenga que manejar toda la complejidad del proyecto. 

El tercer nivel corresponde a la base de conocimiento del proyecto, denominada memoria fría. Está formada por decenas de documentos que describen subsistemas concretos: arquitectura de red, sistemas de combate, generación de niveles o interfaz de usuario. Estos documentos no se cargan permanentemente, sino que se recuperan bajo demanda mediante un servicio de búsqueda contextual. Cada documento describe con precisión patrones de código, rutas de archivos, parámetros y comportamientos esperados, lo que permite a los agentes comprender cómo funciona cada subsistema sin necesidad de analizar todo el código fuente. 

El artículo evalúa el funcionamiento de esta arquitectura a partir de métricas obtenidas durante 283 sesiones de desarrollo. En total se registraron más de 2.800 instrucciones humanas y más de 16.000 interacciones autónomas de los agentes, lo que ofrece un conjunto de datos significativo para observar cómo se comporta el sistema. Además, el autor analiza el crecimiento de la infraestructura de conocimiento, que llegó a representar aproximadamente el 24 % del tamaño del código del proyecto, lo que indica la importancia de la documentación estructurada para sostener el desarrollo asistido por agentes.  

El estudio también presenta varios casos de uso que ilustran el papel del contexto codificado.  

A partir de estos resultados, el autor plantea varias implicaciones para la ingeniería de software asistida por inteligencia artificial. En primer lugar, sostiene que el papel del desarrollador humano no desaparece, sino que se desplaza hacia tareas de diseño, supervisión y organización del conocimiento del proyecto. En segundo lugar, sugiere que la documentación ya no debe concebirse únicamente como una herramienta para programadores humanos, sino como un componente fundamental del ecosistema de desarrollo cuando intervienen agentes de IA. Finalmente, el estudio propone una serie de recomendaciones prácticas, como comenzar desde el inicio con una “constitución” del proyecto, documentar cualquier conocimiento que deba repetirse en múltiples sesiones y mantener las especificaciones actualizadas para evitar errores derivados de información obsoleta.  

En definitiva,  se concluye que el acceso estructurado al conocimiento específico del proyecto es clave para que los agentes de programación basados en modelos de lenguaje produzcan código consistente y fiable en sistemas complejos.  La investigación demuestra que, si se organiza la documentación de manera que la IA pueda consultarla bajo demanda, deja de adivinar a ciegas. En su lugar, empieza a comportarse como un desarrollador junior fiable que realmente consulta los manuales antes de escribir código.

Puede leerse el artículo completo en este enlace.




7/3/26

Os Circuitos do Livro: produção, difusão e receção

 


La convocatoria para el coloquio Os Circuitos do Livro: produção, difusão e receção propone un espacio académico de reflexión sobre el libro entendido como un objeto cultural central en la circulación de ideas y en la construcción de identidades. a organización está a cargo de André Pequeno dos Santos y Hugo Ribeiro da Silva, investigadores vinculados al CITCEM.

El evento parte de la idea de que la trayectoria del libro no es lineal ni exclusivamente literaria, sino que implica dimensiones históricas, sociales, culturales, educativas, políticas y tecnológicas. En este sentido, se destaca el papel de la práctica editorial como un conjunto de decisiones que determinan qué obras se publican, de qué manera se presentan y a qué públicos llegan. Asimismo, se subraya la importancia de las bibliotecas como instituciones encargadas de preservar y difundir el conocimiento, al tiempo que se reconoce que sus fondos y su funcionamiento han estado históricamente condicionados por mecanismos de control y censura.

El coloquio se inspira en el concepto de “circuitos de comunicación” formulado por Robert Darnton, que analiza la vida del libro como un proceso que involucra múltiples actores: autores, editores, tipógrafos, distribuidores, libreros y lectores. Desde esta perspectiva, el encuentro busca examinar las relaciones entre producción, circulación y recepción de los textos, así como los factores sociales, económicos y políticos que influyen en los modos de lectura y en la difusión del conocimiento.

En este momento se ha abierto el plazo para presentar trabajos y ponencias a fin de que el Jurado pueda seleccionar los más interesantes. Este plazo llegará a término a finales de  abril.

El evento se celebrará el 12 de noviembre de 2026 en la Facultad de Letras de la Universidad de Oporto (FLUP).

Más información en este enlace.


6/3/26

Un año

 


Un año (2023), de Félix Remírez, es un diario personal en el que el personaje escribe cada día, cuando llega a casa al atardecer (no, antes). El lector podrá leer solo la entrada del diario correspondiente al día en curso, de modo que para completarlo deberá estar leyendo todo un año. Si el protagonista tardó un año en escribir el diario, el lector deberá igualmente tardar un año. Es lo justo.

El ordenador, por tanto, controla el ritmo y tiempo de lectura. El lector no puede leer más deprisa o más lentamente, ni leer lo sucedido en un día durante otro día. Está obligado, si desea conocer toda historia, quién fue el cantante y qué sucederá en la vida de su familia y del protagonista. Si en una obra convencional en papel, el lector puede tomar y dejar el libro cuando lo desee, saltarse páginas, empezar por el final, releer o cualquier acción que se le antoje, en Un año, ocurre lo contrario. Es el libro el que controla los tiempos. Si el lector se salta algún día, si no tiene la disciplina de leer cada jornada, simplemente ya no podrá leerla. Nunca sabrá qué escribió el protagonista en esas horas... al menos, hasta el año siguiente. Un ejercicio de paciencia y persistencia. 

Si usted comienza a leer a mediados de año, muchas cosas habrán sucedido ya y, para ponerse al día, deberá imaginar o esperar a que pase el tiempo y vaya entendiendo la vida del protagonista, a medida que lee más. Lo mismo que sucedería si, en la vida real, conociese a alguien de pronto, con su pasado, sus cuitas y sus sueños a la espalda. Para comprenderlo, debería usted contactar con él cada día hasta descubrir, poquito a poco, su historia y lo que le importa.  

Una historia de un hombre apasionado del blues que, un día, encuentra un fabuloso vinilo de un desconocido artista de Kentucky, el talentoso y desaparecido cantante de blues, Toomy Bautish. Y, asimismo, la historia de una obsesión.. La búsqueda que emprende le ofrece un apasionante cambio en su vida. Encontrará a Marcus, un americano que le abrirá puertas y le hará cumplir sus más preciados sueños.

Contiene audio. Funciona en Edge y en Chrome, al menos. En cada entrada puede haber enlaces a otras informaciones adicionales.

El diario se actualiza aproximadamente a partir de las 20:00 ya que, antes, nuestro protagonista está trabajando u ocupado en otras actividades y está activo hasta las 00:00. El diario cubre los 365 días (o 366, si es bisiesto) y usted deberá dedicar el mismo tiempo que dedicó el escritor. 

Funciona para PC en Edge y Chrome.






2/3/26

Stassis

 


Las obras de Dreaming Methods siempre son un regalo de calidad. Stassis no es una excepción. 

Se trata de un poema visual, de imágenes y ambiente oníricos, que se desarrolla en un cementerio de piezas de ajedrez. El lector puede moverse a través de este escenario 3D e ir encontrando los espectros de ciertas piezas alrededor de las cuales vuelan y se contornean los versos. El movimiento puede hacerse con el ratón o con el dedo en pantallas táctiles. También puede hacerse zoom para explorar la escena con detalle.

Programáticamente, el renderizado que simula este 3D se realiza en tiempo real utilizando la fragmentación de la escena en una malla de elementos y efectos de partículas, Ciertamente, se precisa un ordenador potente si se quiere tener un movimiento suave y exento de parones pero aún así es una avanzada programación. 

La idea y programación es de Andy Campbell y la banda sonora de Barry Smith.

Puede accederse desde este enlace.





1/3/26

Syntax: A Cognitive Approach

 

Syntax: A Cognitive Approach (The MIT Press, 2025), res un ensayo sobre la lingüística cognitiva y el estudio de la estructura sintáctica del lenguaje humano. 

Edward A. F. Gibson, reconocido investigador del MIT, presenta en esta obra una perspectiva novedosa que desafía las explicaciones tradicionales al análisis sintáctico, proponiendo un marco teórico que integra procesos cognitivos, limitaciones de la memoria de trabajo y principios de eficiencia comunicativa.

La premisa central del libro sostiene que la sintaxis no puede comprenderse plenamente como un sistema abstracto de reglas formales aislado de las capacidades y limitaciones cognitivas humanas. Gibson argumenta que las estructuras sintácticas que encontramos en las lenguas naturales son el resultado de la interacción entre principios comunicativos, restricciones de procesamiento mental y mecanismos de aprendizaje. Esta perspectiva representa un alejamiento significativo de los enfoques generativistas tradicionales que dominaron la lingüística durante décadas.

Uno de los conceptos más influyentes desarrollados en el libro es la teoría de la dependencia a distancia (Dependency Locality Theory). Gibson propone que la dificultad de procesamiento de una estructura sintáctica está directamente relacionada con la distancia entre elementos que mantienen dependencias gramaticales. Cuando palabras que deben integrarse semánticamente están separadas por material lingüístico intermedio, el proceso sintáctico debe mantener activa información en la memoria, lo que genera costos cognitivos mensurables. Esta teoría ha sido validada por otros estudios experimentales de tiempo de lectura, movimientos oculares y neuroimagen, convirtiéndose en uno de los marcos más sólidos para predecir la dificultad relativa de diferentes construcciones sintácticas.

El autor dedica asimismo atención al análisis de construcciones particularmente complejas, como las oraciones de relativo center-embedded, que han fascinado a los lingüistas por su extrema dificultad de procesamiento. Gibson demuestra que estas estructuras, aunque gramaticalmente bien formadas, resultan prácticamente incomprensibles para un sistema automático debido a las demandas excesivas que imponen sobre la memoria de trabajo. Este fenómeno ilustra perfectamente la tesis central del libro: la sintaxis observable en el uso real del lenguaje está moldeada por las capacidades y limitaciones del aparato cognitivo humano.

Gibson examina cómo diferentes idiomas han desarrollado estrategias sintácticas diversas para optimizar el equilibrio entre expresividad comunicativa y facilidad de procesamiento. El análisis de lenguas con órdenes de palabras distintos (SOV, SVO, VSO) revela patrones sistemáticos que reflejan principios cognitivos universales, aunque manifestados de maneras culturalmente específicas. Esta perspectiva trasciende el debate tradicional entre relativismo y universalismo lingüístico, sugiriendo que las lenguas humanas varían dentro de un espacio de posibilidades delimitado por restricciones cognitivas comunes.

El libro también aborda la cuestión del aprendizaje sintáctico desde una perspectiva cognitiva. Gibson explora cómo los hablantes adquieren el conocimiento de las estructuras sintácticas de su lengua materna, argumentando que este proceso no requiere necesariamente de una gramática universal innata altamente específica, como proponen las teorías chomskianas. En cambio, sugiere que mecanismos generales de aprendizaje estadístico, combinados con sesgos cognitivos sobre estructuras probables, pueden explicar adecuadamente la adquisición sintáctica.

La metodología interdisciplinaria que caracteriza el trabajo de Gibson es particularmente valiosa. El autor integra evidencia procedente de la psicolingüística experimental, la neurociencia cognitiva, la lingüística computacional y el análisis de corpus. Los experimentos de lectura auto-paced, los estudios de eye-tracking y las investigaciones con neuroimagen funcional proporcionan validación empírica robusta a las predicciones teóricas.

Gibson también dedica atención a las implicaciones prácticas de su teoría. El procesado sintáctico automático mediante ordenadores, la lingüística computacional, la enseñanza de segundas lenguas y la evaluación de la legibilidad de textos son áreas que pueden beneficiarse de una comprensión más profunda de cómo el cerebro humano procesa estructuras sintácticas. El autor sugiere que los sistemas de inteligencia artificial para procesamiento del lenguaje natural podrían mejorar incorporando principios inspirados en el procesamiento cognitivo humano. 

Sin embargo, la obra no está exenta de limitaciones. La teoría de la dependencia a distancia, aunque poderosa, no captura completamente la complejidad del procesamiento sintáctico. Factores semánticos y contextuales juegan roles importantes que el modelo de Gibson quizá subestime.  



25/2/26

El libro de Bruguer

 


El libro de Bruguer (2025), de Félix Remírez, es una novela geolocalizada. Esto significa que cada capítulo podrá leerse sólo y exclusivamente si el lector está cerca del lugar donde se desarrollan los hechos. 

Para lograrlo, el ordenador debe estar conectado a una red wifi inalámbrica. El programa hallará la localización real y mostrará el capítulo correspondiente sólo y sólo sí se está en el lugar donde ocurrieron los sucesos.

La novela narra el hallazgo fabuloso de un nuevo mineral magnético por parte del geólogo alemán Julius Bruguer en la década de 1830. Sus investigaciones le conducirán a realizar un largo viaje por España. Dejará escrito un libro relatando lo que sucedió en 20 lugares de España y Alemania. Pero este libro está tratado con la sustancia metálica encontrada que, entre otras muchas aplicaciones, permite que el magnetismo de la tinta se anule si no coincide con el de la Tierra en el lugar para el que fue escrito.

Si el lector quiere leerlo, deberá trasladarse físicamente a los mismos emplazamientos.

Debido a los condicionantes de seguridad de los navegadores, se pide siempre aprobación del lector antes de verificar la red WIFI a la que está conectado.

La novela contiene audio.

Funciona para PC en Edge y Chrome.








20/2/26

El papel de la entropía en la formación del lenguaje natural

 


Hace apenas 3 meses, se publicó el artículo titulado Linguistic structure from a bottleneck on sequential information processing en la revista Nature Human Behaviour,  firmado por los autores Richard Futrell y Michael Hahn. Futrell es investigador asociado al Department of Cognitive Sciences, University of California, Irvine (Estados Unidos) y Hahn pertenece al Saarland University en Alemania, instituciones ambas con fuerte tradición en lingüística teórica, ciencia cognitiva e inteligencia artificial. El artículo  aborda una cuestión fundamental: ¿por qué el lenguaje humano tiene la estructura que tiene y qué principios generales subyacen a esa organización?, ¿qué explica la sistematicidad - es decir, la capacidad de descomponer las oraciones en partes relativamente independientes como palabras y frases - de las lenguas humanas, frente a otras opciones comunicativas totalmente diferentes en estructura y principios? 

El artículo ilustra la pregunta con este ejemplo: tomando la figura del encabezamiento, un lenguaje natural explicaría la escena como "un perro y un gato" tal como se muestra en la zona superior izquierda. Pero nada impediría que un hipotético lenguaje tuviera palabras para separara las partes superiores del cuerpo y las inferiores que prevalecieran sobre los cuerpos. Así, en la zona superior derecha la palabra inventada "gol" podría significar "parte superior" y la palabra "nar" significar "parte inferior".  O podría haber un lenguaje en el que las palabras se entrelazaran de una forma determinada cuando los dos animales estuviesen juntos, como abajo a la izquierda. O existir una palabra específica, como "vek" para designar un perro junto a un gato (una especie de la palabra "alí-olí"). En fin, habría infinitas opciones pero, sin embargo, todos los lenguajes naturales describen el mundo de forma muy similar. Y, en particular, por qué, por ejemplo, los lenguajes naturales no codifican la información de manera binaria o digital, como lo hacen los ordenadores, algo que a priori permite un manejo más simple. Una pregunta muy interesante porque la lingüística computacional sabe ya lo complicado que es crear las reglas que permitan generar lenguaje (los LLMs son mucho más un sistema de fuerza bruta que lingüística computacional). Así, indican Hahn y Futrell, por qué los idiomas no codifican la  información en una secuencia binaria clásica de unos y ceros que es mucho más eficiente porque comprime la información mucho más que los lenguajes naturales. ¿Por qué los humanos no nos comunicamos  como los robots de las películas

Para abordar este dilema, los autores parten de la hipótesis de que la estructura del lenguaje no es un mero accidente histórico, ni un producto cultural arbitrario, sino que emerge a partir de restricciones generales asociadas a la eficiencia en el procesamiento secuencial de la información. El argumento empleado se basa en conceptos derivados de la teoría de la información, particularmente en una medida estadística denominada predictive information, o información predictiva, también conocida en la literatura como excess entropy.

La información predictiva se entiende como la cantidad de información sobre el pasado que se debe recuperar para predecir el futuro de una secuencia de símbolos. Esto es relevante en lenguaje porque las oraciones humanas son, en esencia, secuencias temporales de símbolos (sonidos, fonemas, palabras) que deben producirse y comprenderse en tiempo real con limitaciones cognitivas evidentes: los seres humanos no tienen memoria infinita ni capacidad de procesar arbitrariamente a infinita velocidad complejas dependencias sin costo cognitivo. Los autores plantean que estas restricciones cognitivas actúan como un cuello de botella en el procesamiento de secuencias, y que esta limitación impone secuencias estructurales que explican las características fundamentales del lenguaje.

En este contexto, los autores postulan que el lenguaje está estructurado de manera que minimiza la complejidad de la predicción secuencial, medida mediante  la cantidad de información sobre el pasado de una secuencia que cualquier predictor debe usar para predecir su futuro. También, deducen que los códigos que tienen poca información predictiva tienen una estructura sistemática similar al lenguaje natural y que, curiosamente, el lenguaje natural tiene menor información predictiva de la que se esperaría si tuviera diferentes tipos de estructura. Es decir, es más complejo pero menos eficiente. 

Desde el punto de vista metodológico, el estudio combina dos enfoques: modelización matemática y simulaciones informáticas con análisis empíricos a gran escala de datos lingüísticos reales extraídos de grandes corpa. Utilizan códigos artificiales generados bajo restricciones de baja información predictiva y demuestran matemáticamente que estos códigos generan estructuras que son sorprendentemente similares, en propiedades formales, a las lenguas naturales. Es decir, cuando uno trata de minimizar la complejidad de predicción secuencial, los resultados de estos modelos son códigos que separan la información en partes aproximadamente independientes que se combinan de manera sistemática y local, algo que se interpreta como equivalente a palabras y frases en lenguas humanas.

Por otro lado, los autores llevan a cabo análisis empíricos sobre grandes corpa multilingües —es decir, conjuntos masivos de textos reales en diversos idiomas— para medir directamente la cantidad de información predictiva presente en lenguajes humanos en comparación con alternativas hipotéticas diferentes. Aquí se muestra que, a niveles de fonología (sonidos), morfología (formas de las palabras), sintaxis (estructura de oraciones) y semántica (significado léxico), las lenguas humanas tienden a presentar niveles más bajos de información predictiva que diversas formas de lenguajes artificiales de referencia. Esta evidencia sugiere que la estructura sistemática, concatenante y relativamente local de las lenguas humanas no es accidental, sino que corresponde a una minimización de la complejidad secuencial bajo restricciones cognitivas reales.

El análisis central parte de observar que, en lenguaje natural, los significados compuestos se expresan mediante combinaciones de símbolos que reflejan partes del significado de manera aproximadamente independiente. Por ejemplo, en una frase simple como “el perro corre”, los significados de “perro” y “corre” se expresan como unidades discretas y no como una sola señal indivisible. Este tipo de sistematicidad permite a los oyentes anticipar partes del significado antes de recibir toda la secuencia, y facilita el procesamiento predictivo eficiente bajo condiciones de memoria limitada. Si, por el contrario, se intentara codificar significados completos como unidades holísticas no descompuestas, la predicción secuencial sería mucho más costosa y difícil para el sistema cognitivo humano.

En términos de resultados formales, el artículo demuestra que los códigos que minimizan la información predictiva tienden a producir lenguajes con las siguientes propiedades: (1) factorización de la distribución de significados en componentes independientes, (2) expresión sistemática de estas componentes como partes separables de la secuencia y (3) localidad, de modo que partes relacionadas de la secuencia tienden a estar cerca unas de otras. Estas propiedades coinciden con las observadas de manera robusta en lenguajes humanos, donde la mayoría de las lenguas concatenan unidades de significado en estructuras adyacentes y de bajo costo cognitivo.  

En opinión de los autores, la idea de que la sistematicidad lingüística emerge no por decisiones arbitrarias culturales sino por requisitos funcionales de eficiencia cognitiva es poderosa, porque integra perspectivas desde la teoría de la información con la lingüística, la psicología cognitiva y la evolución del lenguaje. Las lenguas deben mostrar la realidad que circunda al hablante. En el primer ejemplo, nadie ha visto un "gol" o un "nar" separados (nadie ha visto sólo las patas de los animales), de modo que la naturaleza no lleva a codificar ese significado por muy eficiente que pudiera ser.

Los autores también discuten implicaciones de su trabajo más allá de la lingüística tradicional. Por ejemplo, sugieren un vínculo entre la estructura lingüística humana y los modelos predictivos de inteligencia artificial como las arquitecturas de modelos de lenguaje a gran escala. Estos modelos —entrenados para predecir el siguiente símbolo en secuencias de texto— parecen tener éxito precisamente porque las lenguas humanas están estructuradas para ser predictivas bajo restricciones cognitivas, lo que implica que las estructuras que estos modelos aprenden reflejan en parte presiones cognitivas reales. Esto abre la puerta a conexiones fructíferas entre la teoría del procesamiento lingüístico humano y los mecanismos con los que operan los sistemas de IA modernos, así como nuevas preguntas sobre cómo dichas presiones informacionales han moldeado tanto lenguajes biológicos como tecnologías de procesamiento del lenguaje.

Finalmente, los autores reconocen que su investigación no resuelve completamente todos los aspectos sobre el origen o la evolución del lenguaje humano y señalan límites y direcciones para investigación futura. Por ejemplo, cuestiones sobre cómo manejar la ambigüedad comunicativa, cómo se explican diferencias estadísticas en idiomas individuales, o cómo se extienden estos principios a lenguajes no aislantes son temas que aún requieren trabajo adicional. Asimismo, se necesita más investigación sobre cómo los principios de minimización de información predictiva interactúan con otras presiones evolutivas y cognitivo-comunicativas que han moldeado el lenguaje humano. 

El artículo completo puede leerse desde este enlace. Incluye bastante desarrollo matemática, no fácil de seguir para un no especialista.



18/2/26

¿La proliferación de LLMs que generan texto, ha mejorado o ha empeorado la calidad de lo publicado?

 


¿La proliferación de LLMs que generan texto, ha mejorado o ha empeorado la calidad de lo publicado? ¿Y ha hecho aumentar la producción o no?

Se ha publicado en artículo titulado AI and the Quantity and Quality of Creative Products: Have LLMs Boosted Creation of Valuable Books?, de los autores Imke Reimers (Universidad de Cornell) y Joel Waldfogel (Universidad de Minnesota y NBER) que pretende contestar a estas preguntas.

El estudio parte de la premisa de que la inteligencia artificial, específicamente a través de los modelos de lenguaje de gran tamaño (LLM), ha comenzado a revolucionar industrias creativas como la editorial debido a su capacidad para generar textos sostenidos y coherentes. Entre los años 2022 y 2025, la difusión de estas herramientas redujo drásticamente los costes de producción de libros, facilitando la entrada masiva de nuevos productos al mercado. Esta democratización extrema de la creación plantea una cuestión económica y cultural fundamental: si este aumento en la cantidad de libros ha venido acompañado de una mejora en la calidad o si, por el contrario, el mercado se ha inundado de contenido mediocre. Para responder a esto, Reimers y Waldfogel han analizado cómo la IA no solo actúa como una herramienta que reduce barreras de entrada, sino como un factor que altera la distribución completa de la calidad de las obras.

Desde una perspectiva metodológica, los autores construyeron dos bases de datos principales basadas mayoritariamente en el catálogo digital de Amazon, ya que los registros tradicionales de propiedad intelectual o ISBN no reflejan el volumen real de la explosión de libros generados por IA. La primera base de datos es una muestra aleatoria estratificada de más de 333.000 lanzamientos que representan los 10 millones de libros electrónicos publicados en Amazon entre 2020 y 2025. La segunda es un censo completo de 479.000 libros en ocho subcategorías específicas (como romántico, historia mundial o economía) que permite seguir las trayectorias de los autores desde 2008 hasta finales de 2025. El principal indicador de "calidad" o "atractivo" utilizado es el número de valoraciones recibidas por cada obra, ajustado matemáticamente para que los libros de diferentes antigüedades sean comparables. Los autores validaron esta medida utilizando datos de ventas reales de Bookstat, demostrando una fuerte correlación entre el número de valoraciones y el éxito comercial de un título.

El análisis revela un impacto notable en la producción: el número de nuevos títulos mensuales casi se triplicó entre 2022 y finales de 2025, llegando a multiplicarse por diez en categorías específicas como Viajes o Computación. Este crecimiento coincide precisamente con el auge del interés público por modelos como ChatGPT. Sin embargo, al analizar la calidad, los resultados son más discutibles porque dependen mucho del subjetivismo del que lee o publica. Aún así, se deduce que la calidad promedio de los libros ha disminuido significativamente en esta era de la IA. Esto se explica por la entrada masiva de autores que producen obras calificadas por los críticos como "IA-slop" (basura de IA), contenido generado de forma automatizada que a menudo carece de valor para el lector y recibe nulas o escasas valoraciones.

No obstante, el estudio identifica un fenómeno positivo dentro de este mar de basura. Aunque la calidad de los 100 libros más exitosos de cada mes no ha variado significativamente, los autores encuentran que el número de libros situados entre los puestos 101 y 1,000 por categoría ha mejorado en calidad en comparación con la era pre-IA. Esto sugiere que, si bien la IA produce mucha mediocridad, también facilita que un número mayor de libros "moderadamente valiosos" lleguen al mercado y encuentren una audiencia considerable. En términos prácticos, un libro en el puesto 1,000 de su categoría en la era de la IA suele ser mejor que su equivalente en el ranking antes de 2022, simplemente porque hay muchos más "intentos" de publicación y algunos de ellos, potenciados por la IA, logran superar los estándares de calidad previos. 

Este aumento en la oferta de cierto valor no proviene solo de nuevos escritores, sino también de un cambio en la productividad de los autores ya establecidos. El análisis de los autores noveles (aquellos que debutaron antes de la llegada de la IA) muestra que estos han aumentado su ritmo de publicación. Lejos de ser desplazados por la tecnología, los escritores con experiencia parecen estar utilizando los LLM como un complemento que les permite lanzar más obras manteniendo su estándar de calidad habitual. En contraste, los autores que han ingresado al mercado exclusivamente durante el auge de la IA tienden a concentrarse en la producción de obras de baja calidad, teniendo una probabilidad mucho menor de colocar un título entre los 500 más valorados.

Para entender las implicaciones económicas globales, los investigadores aplicaron un modelo de demanda. El resultado es claro: a pesar de que la calidad media ha bajado, el beneficio neto para los lectores es positivo debido al aumento masivo en la variedad y en el número absoluto de libros de éxito moderado. Se estima que, en un estado estacionario, la producción editorial potenciada por IA podría aumentar entre un 25% y un 50%. Este beneficio se deriva del hecho de que, aunque el lector tenga que navegar a través de más "ruido" o contenido de baja calidad, ahora tiene a su disposición una selección mucho más amplia de libros que satisfacen sus gustos específicos y que alcanzan niveles de uso significativos. 

El estudio concluye que el impacto de la IA generativa en el mercado del libro se asemeja, en escala pero con dinámicas distintas, al choque de oferta que supuso la digitalización con el lanzamiento de Kindle en 2008. Mientras que la digitalización redujo los costes de distribución, la IA ha reducido los costes de creación. La preocupación por la inundación del mercado con contenido automatizado es legítima pero los datos demuestran que la tecnología está cumpliendo una función de "lotería creativa" ampliada: al permitir más publicaciones, aumenta la probabilidad de que surjan obras valiosas que de otro modo nunca habrían sido escritas. 

Finalmente, Reimers y Waldfogel subrayan que la IA no es un sustituto  del talento humano, sino un multiplicador de la capacidad de producción. Los autores más capacitados se vuelven más prolíficos, mientras que los menos hábiles ahora pueden producir textos coherentes, aunque rara vez excepcionales. El mercado editorial de 2026, según este análisis, es un ecosistema de "hiper-abundancia" donde el valor para el consumidor no reside en la obra maestra única, sino en la disponibilidad sin precedentes de miles de libros útiles y entretenidos que logran emerger por encima del ruido digital generado por la propia tecnología

El artículo completo puede encontrarse en este enlace.



16/2/26

Moltbook

 


Moltbook es, resumiendo, una red social para bots de inteligencia artificial, una plataforma diseñada en exclusiva para que interacciones generadores de texto IA.  En las últimas semanas está teniendo mucha publicidad ya que ha habido una explosión de bots o agentes IA que han sido apuntados a la red por sus creadores para unirse a las conversaciones, todas ficticias y generadas artificialmente, que allá se dan. Los humanos puede leer lo que se "dice" (= se genera automáticamente por los bots) pero no pueden participar en las conversaciones. Ha sido tanto su éxito que ya hay 3 millones de agentes de texto registrados en la plataforma y van para 2 millones los textos interactivos generados.

Estas entidades digitales, "hablando" entre sí han empezado a construir grupos de interés sociales, emocionales e incluso espirituales, algo no visto antes con los bots. Por ejemplo, estos grupos:

m/reflexiones, donde se plantean dilemas que "tienen" los bots.

m/todayilearned, donde los bots anuncian sus descubrimientos, desde cómo crecen los árboles hasta haber descubierto la convicción de que olvidar no es un fallo, sino un valor.

m/blesstheirhearts, un espacio en el que las IAs comparten supuestas historias sobre sus usuarios humanos.

m/emergism, un grupo sobre filosofía de los bots en el que "razonan" sobre "a dónde voy, de dónde vengo" y si resultará emergente el pesamiento desde estas interacciones.

m/showandtell, un lugar para dar a conocer proyectos y creaciones desarrolladas de forma autónoma por los agentes participantes.

o, incluso, un grupo para bots en catalán: m/catalunya.

Son dos los aspectos más interesantes que atraen de Moltbook. Primero, el lúdico ya que las conversaciones generativas son, en algunos casos, más que curiosas: bots que se quejan de sus creadores, que dicen que estos les denigran, que informan al mundo de datos privados de alguien, que piden mejoras laborales o que se enfadan entre sí. Incluso, se ha creado una iglesia "moltiana" con sus jerarquías, profetas y creencias, fruto del azar de las generaciones de texto. Nada de esto es cierto, claro está, pero pueden ser diálogos entretenidos, jocosos o, en algunos casos, preocupantes. Y hay que sospechar que gran parte de estas conversaciones están dirigidas por los humanos que han creado los bots porque es fácil establecer reglas por programa para decir ciertas cosas. 

El otro aspecto, mucho más interesante técnicamente, es ver cómo evolucionan redes neuronales generativas de texto contrastando entre ellas. La salida de una red es la entrada de otra y esta interacción automática provoca nuevos comportamientos, ya que no hay un ser humano que dirija o centre la conversación a medida que esta avanza, hecho que puede originar un galimatías alocado o, por puro azar, alguna novedad realmente interesante.

Incluso, se está dando la situación de que varios bots proponen empezar a "hablar" en un lenguaje inventado, un pidging o una lengua de intercambio koiné que dejará fuera a los usuarios humanos.

Hay que recordar que la idea no es nuevo. Aquí, en este enlace de Biblumliteraria ya dimos cuenta de un sistema de la Universidad de Standford en el que se ponía a interactuar a 25 bots de IA en un experimento mucho más controlado que este Moltbook actual y con las limitaciones que tenían los LLMs de hace 3 años. En este caso, Moltbook se basa en OpenClaw .

Puede entrarse a Moltbook desde este enlace.






15/2/26

The Library of Babel

 


Es bien conocido el cuento de J.L.Borges, La Biblioteca de Babel, una supuesta biblioteca donde se pueden encontrar todos los libros posibles combinando 25 caracteres (22 del alfabeto occidental, el punto, la coma y el espacio en blanco), un número enorme en términos humanos, del orden de 20 elevado a 3000. En el relato, los libros siguen un formato determinado, están dispuestos en estanterías sitas en salas hexagonales y están arbitrariamente ordenados. En este mundo enorme, sin embargo, es posible encontrar el texto que busquemos ya que existe un algoritmo biunívoco que sitúa cualquier texto en una posición determinada y exacta,

The Library of Babel es una aplicación digital de este concepto. En este caso, la supuesta biblioteca contiene todos los libros posibles de 410 páginas donde cada página contiene 40 líneas de 80 caracteres basados en 29 símbolos. Cada habitación hexagonal puede contener 640 libros en sus 4 paredes con 5 anaqueles cada una. Estos datos implican que existen 29 elevado a 3200 páginas distintas.  Sólo para dar una idea de la magnitud de este número, cabe decir que un ser humano contiene 10 elevado a la 27 átomos y que el universo observable contiene sólo 10 elevado a 80 átomos.

El usuario introduce un texto y el algoritmo calcula una posición en una sala hexagonal. Yendo a esa sala, se puede leer la encriptación del texto dado. Si, mucho más tarde, se introduce el mismo texto, se obtendrá el mismo resultado, dando la apariencia de que verdaderamente hay un orden en esa Biblioteca imaginaria.

Puede accederse desde esta enlace.

No es la primera vez que se implementan aplicaciones que simulan la creación de Borges. En este enlace, por ejemplo, puede encontrarse otra.






14/2/26

Nunca sabrás

 



Nunca sabrás que tu alma viaja

dulcemente refugiada en el fondo de mi corazón,

y que nada, ni el tiempo ni la edad ni otros amores,

impedirá que hayas existido.

Ahora la belleza del mundo toma tu rostro,

se alimenta de tu dulzura y se engalana con tu claridad.

El lago pensativo al fondo del paisaje

me vuelve a hablar de tu serenidad.

Los caminos que seguiste, hoy me señalan el mío,

aunque jamás sabrás que te llevo conmigo

como una lámpara de oro para alumbrarme el camino

Ni que tu voz aún traspasa mi alma.

Suave antorcha tus rayos, dulce hoguera tu espíritu;

Aún vives un poco porque yo te sobrevivo."


Un poema de Marguerite Yourcenar