Hace apenas 3 meses, se publicó el artículo titulado Linguistic structure from a bottleneck on sequential information processing en la revista Nature Human Behaviour, firmado por los autores Richard Futrell y Michael Hahn. Futrell es investigador asociado al Department of Cognitive Sciences, University of California, Irvine (Estados Unidos) y Hahn pertenece al Saarland University en Alemania, instituciones ambas con fuerte tradición en lingüística teórica, ciencia cognitiva e inteligencia artificial. El artículo aborda una cuestión fundamental: ¿por qué el lenguaje humano tiene la estructura que tiene y qué principios generales subyacen a esa organización?, ¿qué explica la sistematicidad - es decir, la capacidad de descomponer las oraciones en partes relativamente independientes como palabras y frases - de las lenguas humanas, frente a otras opciones comunicativas totalmente diferentes en estructura y principios?
El artículo ilustra la pregunta con este ejemplo: tomando la figura del encabezamiento, un lenguaje natural explicaría la escena como "un perro y un gato" tal como se muestra en la zona superior izquierda. Pero nada impediría que un hipotético lenguaje tuviera palabras para separara las partes superiores del cuerpo y las inferiores que prevalecieran sobre los cuerpos. Así, en la zona superior derecha la palabra inventada "gol" podría significar "parte superior" y la palabra "nar" significar "parte inferior". O podría haber un lenguaje en el que las palabras se entrelazaran de una forma determinada cuando los dos animales estuviesen juntos, como abajo a la izquierda. O existir una palabra específica, como "vek" para designar un perro junto a un gato (una especie de la palabra "alí-olí"). En fin, habría infinitas opciones pero, sin embargo, todos los lenguajes naturales describen el mundo de forma muy similar. Y, en particular, por qué, por ejemplo, los lenguajes naturales no codifican la información de manera binaria o digital, como lo hacen los ordenadores, algo que a priori permite un manejo más simple. Una pregunta muy interesante porque la lingüística computacional sabe ya lo complicado que es crear las reglas que permitan generar lenguaje (los LLMs son mucho más un sistema de fuerza bruta que lingüística computacional). Así, indican Hahn y Futrell, por qué los idiomas no codifican la información en una secuencia binaria clásica de unos y ceros que es mucho más eficiente porque comprime la información mucho más que los lenguajes naturales. ¿Por qué los humanos no nos comunicamos como los robots de las películas?
Para abordar este dilema, los autores parten de la hipótesis de que la estructura del lenguaje no es un mero accidente histórico, ni un producto cultural arbitrario, sino que emerge a partir de restricciones generales asociadas a la eficiencia en el procesamiento secuencial de la información. El argumento empleado se basa en conceptos derivados de la teoría de la información, particularmente en una medida estadística denominada predictive information, o información predictiva, también conocida en la literatura como excess entropy.
La información predictiva se entiende como la cantidad de información sobre el pasado que se debe recuperar para predecir el futuro de una secuencia de símbolos. Esto es relevante en lenguaje porque las oraciones humanas son, en esencia, secuencias temporales de símbolos (sonidos, fonemas, palabras) que deben producirse y comprenderse en tiempo real con limitaciones cognitivas evidentes: los seres humanos no tienen memoria infinita ni capacidad de procesar arbitrariamente a infinita velocidad complejas dependencias sin costo cognitivo. Los autores plantean que estas restricciones cognitivas actúan como un cuello de botella en el procesamiento de secuencias, y que esta limitación impone secuencias estructurales que explican las características fundamentales del lenguaje.
En este contexto, los autores postulan que el lenguaje está estructurado de manera que minimiza la complejidad de la predicción secuencial, medida mediante la cantidad de información sobre el pasado de una secuencia que cualquier predictor debe usar para predecir su futuro. También, deducen que los códigos que tienen poca información predictiva tienen una estructura sistemática similar al lenguaje natural y que, curiosamente, el lenguaje natural tiene menor información predictiva de la que se esperaría si tuviera diferentes tipos de estructura. Es decir, es más complejo pero menos eficiente.
Desde el punto de vista metodológico, el estudio combina dos enfoques: modelización matemática y simulaciones informáticas con análisis empíricos a gran escala de datos lingüísticos reales extraídos de grandes corpa. Utilizan códigos artificiales generados bajo restricciones de baja información predictiva y demuestran matemáticamente que estos códigos generan estructuras que son sorprendentemente similares, en propiedades formales, a las lenguas naturales. Es decir, cuando uno trata de minimizar la complejidad de predicción secuencial, los resultados de estos modelos son códigos que separan la información en partes aproximadamente independientes que se combinan de manera sistemática y local, algo que se interpreta como equivalente a palabras y frases en lenguas humanas.
Por otro lado, los autores llevan a cabo análisis empíricos sobre grandes corpa multilingües —es decir, conjuntos masivos de textos reales en diversos idiomas— para medir directamente la cantidad de información predictiva presente en lenguajes humanos en comparación con alternativas hipotéticas diferentes. Aquí se muestra que, a niveles de fonología (sonidos), morfología (formas de las palabras), sintaxis (estructura de oraciones) y semántica (significado léxico), las lenguas humanas tienden a presentar niveles más bajos de información predictiva que diversas formas de lenguajes artificiales de referencia. Esta evidencia sugiere que la estructura sistemática, concatenante y relativamente local de las lenguas humanas no es accidental, sino que corresponde a una minimización de la complejidad secuencial bajo restricciones cognitivas reales.
El análisis central parte de observar que, en lenguaje natural, los significados compuestos se expresan mediante combinaciones de símbolos que reflejan partes del significado de manera aproximadamente independiente. Por ejemplo, en una frase simple como “el perro corre”, los significados de “perro” y “corre” se expresan como unidades discretas y no como una sola señal indivisible. Este tipo de sistematicidad permite a los oyentes anticipar partes del significado antes de recibir toda la secuencia, y facilita el procesamiento predictivo eficiente bajo condiciones de memoria limitada. Si, por el contrario, se intentara codificar significados completos como unidades holísticas no descompuestas, la predicción secuencial sería mucho más costosa y difícil para el sistema cognitivo humano.
En términos de resultados formales, el artículo demuestra que los códigos que minimizan la información predictiva tienden a producir lenguajes con las siguientes propiedades: (1) factorización de la distribución de significados en componentes independientes, (2) expresión sistemática de estas componentes como partes separables de la secuencia y (3) localidad, de modo que partes relacionadas de la secuencia tienden a estar cerca unas de otras. Estas propiedades coinciden con las observadas de manera robusta en lenguajes humanos, donde la mayoría de las lenguas concatenan unidades de significado en estructuras adyacentes y de bajo costo cognitivo.
En opinión de los autores, la idea de que la sistematicidad lingüística emerge no por decisiones arbitrarias culturales sino por requisitos funcionales de eficiencia cognitiva es poderosa, porque integra perspectivas desde la teoría de la información con la lingüística, la psicología cognitiva y la evolución del lenguaje. Las lenguas deben mostrar la realidad que circunda al hablante. En el primer ejemplo, nadie ha visto un "gol" o un "nar" separados (nadie ha visto sólo las patas de los animales), de modo que la naturaleza no lleva a codificar ese significado por muy eficiente que pudiera ser.
Los autores también discuten implicaciones de su trabajo más allá de la lingüística tradicional. Por ejemplo, sugieren un vínculo entre la estructura lingüística humana y los modelos predictivos de inteligencia artificial como las arquitecturas de modelos de lenguaje a gran escala. Estos modelos —entrenados para predecir el siguiente símbolo en secuencias de texto— parecen tener éxito precisamente porque las lenguas humanas están estructuradas para ser predictivas bajo restricciones cognitivas, lo que implica que las estructuras que estos modelos aprenden reflejan en parte presiones cognitivas reales. Esto abre la puerta a conexiones fructíferas entre la teoría del procesamiento lingüístico humano y los mecanismos con los que operan los sistemas de IA modernos, así como nuevas preguntas sobre cómo dichas presiones informacionales han moldeado tanto lenguajes biológicos como tecnologías de procesamiento del lenguaje.
Finalmente, los autores reconocen que su investigación no resuelve completamente todos los aspectos sobre el origen o la evolución del lenguaje humano y señalan límites y direcciones para investigación futura. Por ejemplo, cuestiones sobre cómo manejar la ambigüedad comunicativa, cómo se explican diferencias estadísticas en idiomas individuales, o cómo se extienden estos principios a lenguajes no aislantes son temas que aún requieren trabajo adicional. Asimismo, se necesita más investigación sobre cómo los principios de minimización de información predictiva interactúan con otras presiones evolutivas y cognitivo-comunicativas que han moldeado el lenguaje humano.
El artículo completo puede leerse desde este enlace. Incluye bastante desarrollo matemática, no fácil de seguir para un no especialista.