Se ha publicado en ArXiv un estudio titulado On the Fundamental Limits of LLMs at Scale, liderado por Muhammad Ahmed Mohsin de la Universidad de Stanford en que se analiza si es posible mejorar la respuesta de los LLM (Grandes Modelos de Lenguaje, como los que generan texto, responden preguntas o resumen documentos,) simplemente escalándolos en tamaño, una idea que se ha vuelto popular en la creencia de que, del mismo modo que hace unos años, el aumento de parámetros produjo un salto espectacular en el rendimiento de estas redes neuronales, este escalado podría proseguir infinitamente.
Los autores defienden en el paper que, siendo cierto que el progreso reciente de los modelos de lenguaje ha alimentado la idea de que basta con escalar parámetros, datos y cómputo para acercarse a una inteligencia general, esta visión es incompleta porque existen límites estructurales, derivados de la teoría de la información, la computabilidad, la estadística y la arquitectura misma de los Transformers. Estos límites impiden que el desempeño crezca indefinidamente. Según los autores, fenómenos como la alucinación, el razonamiento frágil, el uso ineficiente del contexto, las fallas del retrieval y las dificultades de la multimodalidad no son simples defectos solucionables con más escala, sino manifestaciones de restricciones profundas.
En efecto, los datos indican que los LLMs no pueden mejorar simplemente haciéndose cada vez más grandes. Aunque en los últimos años estos modelos han mostrado avances impresionantes, los autores explican que existen límites profundos que no dependen de la cantidad de datos o potencia de cálculo, sino de cómo funcionan estos modelos por dentro. Son límites matemáticos y prácticos que siempre estarán ahí,
La tesis central del artículo es que el escalado ha funcionado gracias a regularidades existentes en cualquier lenguaje, pero esta propiedad no es suficiente para resolver problemas que emergen inevitablemente cuando se intenta que un sistema probabilístico y autoregresivo abarque un espacio ilimitado de tareas. Este punto se hace evidente al analizar la alucinación: incluso con más datos y modelos más grandes, siempre existirán consultas cuyo manejo es imposible debido a límites de computabilidad, como la existencia de problemas indecidibles o la imposibilidad de que un modelo finito represente toda la complejidad de la información del mundo.
El razonamiento clásico sobre máquinas de Turing muestra que ningún sistema computable puede responder correctamente a todas las entradas, por lo que las alucinaciones no pueden ser eliminadas por completo. A esto se suman factores prácticos como la cobertura limitada de los datos de entrenamiento, la presencia de información ruidosa, contradictoria u obsoleta y la naturaleza de la distribución de las irregularidades del lenguaje, donde millones de casos raros no pueden ser representados adecuadamente. Incluso los métodos de evaluación contribuyen al problema, porque muchos benchmarks penalizan la incertidumbre y premian respuestas confiadas y aparentemente solidez, forzando al modelo a “hablar aunque no sepa”, algo que todos hemos experimentado al utilizar este tipo de herramientas. Por otro lado, en la vida real, la creatividad y la estandarización de respuestas se contraponen: mecanismos que permiten respuestas más imaginativas también aumentan la probabilidad de generar contenido incorrecto. Otro límite destacado por los autores es la ilusión de las ventanas de contexto largas.
Aunque los modelos modernos anuncian la capacidad de poder manejar cientos de miles de tokens, la evidencia muestra que su uso efectivo del contexto es mucho menor. Esto se debe, primero, a la distribución de entrenamiento: la mayor parte de los datos contiene secuencias cortas, así que las posiciones lejanas apenas reciben gradiente, lo que dejan sin entrenar las interacciones a gran distancia. Segundo, los métodos de codificación posicional, como las técnicas sinusoidales o RoPE, sufren una notable degradación en contextos muy largos debido a cancelaciones de fase o solapamientos que dificultan distinguir correctamente posiciones distantes. Tercero, el mecanismo de atención exige que la relevancia de un token aumente aproximadamente como log(N) para competir contra miles de distractores, algo difícil de lograr con parámetros finitos. En suma, la longitud efectiva del contexto crece más lentamente que la longitud nominal, lo que significa que expandir el rango no resuelve los fallos en tareas que requieren manejo real de información dispersa.
En cuanto al razonamiento, el artículo subraya que los LLM no razonan de forma estructurada, sino que generan texto optimizando la probabilidad del siguiente token. Esto favorece continuaciones plausibles pero no necesariamente correctas. En tareas que requieren pasos lógicos concatenados, pequeños errores iniciales se amplifican y la naturaleza autoregresiva impide asegurar coherencia global. Aunque técnicas como chain-of-thought pueden mejorar el rendimiento, siguen dependiendo de una cadena generada token por token, vulnerable al desvío. Los autores plantean que el razonamiento debería entenderse como una optimización sobre estructuras latentes, algo que los modelos actuales no implementan explícitamente. Por eso pueden resolver un problema aislado pero fallar al mantener consistencia entre pasos o repetir razonamientos similares en contextos apenas modificados. El retrieval tampoco escapa a estas limitaciones.
En teoría, integrar recuperación de documentos debería suplir fallas de conocimiento, pero en la práctica se introducen nuevas dificultades. Antes incluso de generar una respuesta, el sistema puede recuperar documentos irrelevantes, ambivalentes o contradictorios, ya sea por mala formulación del query, ruido en la base de datos o métricas de similitud imperfectas. Existen también compromisos irresolubles entre relevancia y cobertura: recuperar pocos documentos puede dejar fuera la evidencia crítica, mientras que recuperar muchos introduce distractores que confunden al modelo. Además, la fusión de la información recuperada con el prompt no incorpora un modelo explícito de intención del usuario, lo que implica que el sistema trate información relevante y espuria de forma casi equivalente. Esta falta de calibración provoca errores incluso si el documento correcto está presente en el contexto.
El artículo también critica los modelos multimodales, es decir, los que pueden procesar texto e imágenes juntos. Aunque se publicitan como sistemas más “inteligentes”, el artículo dice que siguen teniendo los mismos límites, y además nuevos problemas añadidos. Las imágenes tienen mucha información, pero al convertirlas a un formato que el modelo pueda procesar (porque originalmente está diseñado para texto), se pierde gran parte de los detalles. Y como el texto suele dominar, el modelo a veces interpreta la imagen de forma superficial o errónea. Por ejemplo, puede describir mal objetos, números o posiciones en la imagen. También hay problemas durante el entrenamiento, porque muchas imágenes no están bien emparejadas con sus descripciones.
Finalmente, la conversión de información visual a embeddings comprimidos crea un cuello de botella donde gran parte de los detalles de la imagen se pierde antes de llegar al modelo. El artículo también critica los métodos actuales de evaluación, señalando que muchos benchmarks son frágiles, sensibles al azar, culturalmente sesgados, fáciles de contaminar en el entrenamiento y carentes de medidas robustas de razonamiento real. La variabilidad entre corridas, las diferencias entre versiones del modelo y la ausencia de métricas que midan consistencia o capacidad de verificación hacen que las evaluaciones actuales no reflejen adecuadamente los límites estructurales.
En conjunto, el artículo concluye que el escalado por sí solo no resolverá estas limitaciones. Los problemas descritos no son accidentes corregibles con más datos o más parámetros, sino consecuencias de restricciones fundamentales en computabilidad, arquitectura y capacidad de información.
Para poder avanzar más allá, los autores sugieren explorar enfoques híbridos que integren módulos simbólicos, mecanismos explícitos de planificación y verificación, nuevas formas de atención y posicionamiento, sistemas de retrieval más semánticos y modelos especializados que cooperen en lugar de un único modelo monolítico. Solo combinando técnicas algorítmicas, simbólicas y estadísticas será posible superar los límites que hoy se observan en los LLM puramente escalados.

No hay comentarios:
Publicar un comentario