17/1/26

Nuevo método recursivo masivo para LLMs desarollado por el MIT

 


En un reciente artículo que puede leerse completo en este enlace, investigadores del MIT liderados por Alex Zhang han presentado un método recursivo para Grandes Modelos de Lenguaje que permite procesar prompts de longitud arbitraria y hasta 10 millones de tokens sin contexto.

Este enfoque, llamado RML - Recursive Language Model- , propone una solución innovadora al problema del contexto largo  permitiendo procesar entradas de más de 10 millones de tokens sin sufrir el fenómeno conocido como "context rot" (degradación progresiva del rendimiento al aumentar la longitud del contexto) y sin necesidad de reentrenar los modelos.

Los modelos más avanzados de lenguaje (como GPT-5) han mejorado notablemente en razonamiento, pero enfrentan aún dos limitaciones principales. Primero, el límite físico del context window (ventana de contexto), que incluso en modelos avanzados como GPT-5 ronda los cientos de miles de tokens (≈272K en las pruebas). Asimismo, el denominado Context rot, donde el rendimiento cae drásticamente con contextos más largos o tareas complejas, incluso cuando el input cabe en la ventana. Hay argumentos teóricos (entropía) que sugieren que expandir la ventana requiere datos de entrenamiento exponencialmente mayores.

Las soluciones habituales, como la compactación o resumen progresivo del contexto anterior, fallan en tareas que necesitan acceso aleatorio y preciso a detalles específicos dispersos en el texto (por ejemplo, revisión legal, análisis de codebases grandes o razonamiento multi-hop).

Antes estos problemas, los RLMs reformulan el problema como uno de sistemas en lugar de arquitectura neuronal pura. Inspirados en algoritmos "out-of-core" (procesamiento de datos que no caben en memoria RAM principal), tratan el prompt largo como un entorno externo accesible programáticamente.

Así, la entrada se carga como una variable de cadena (string) en un entorno de ejecución Python REPL (Read-Eval-Print Loop). Con ello, el LLM no recibe todo el texto en su contexto, sino solo metadatos básicos (longitud total, etc.). Puede decirse que el modelo actúa como "programador" y genera código Python para inspeccionar, buscar (con técnicas como regex, slicing, etc.), particionar y extraer fragmentos relevantes. Cuando se identifica un chunk interesante, se invoca recursivamente el mismo modelo (o uno más barato/rápido) solo sobre ese fragmento.

La arquitectura típica consiste en un LM raíz potente, como GPT-5, que orquesta y planifica las tareas más  un servidor que es  un LM más eficiente y sencillo que  procesa sub-tareas. El resultado es que el sistema mantiene una interfaz idéntica a un LLM estándar (input string → output string), pero escala a longitudes órdenes de magnitud mayores sin tocar la ventana nativa del modelo subyacente. El código de implementación está disponible en GitHub (repositorio de Alex Zhang). 

En las evaluaciones que los autores detallan en su artículo, comparan RLMs contra baselines directos, agentes de resumen, CodeAct y otros enfoques agenticos en tareas de contexto largo. En general, los RLMs mantienen un rendimiento estable más allá de los 16K–272K de tokens, cifras donde los modelos base colapsan. En los experimentos se escaló con éxito a más de 10M tokens (dos órdenes de magnitud por encima del límite habitual).

Además, resultó que los costos medios de operación son comparables o inferiores que otras aplicaciones semejantes, incluso en hasta 3 veces menores.

Los autores argumentan que la mayoría de tareas complejas se descomponen en sub-tareas locales que no requieren ver todo el contexto simultáneamente. Por ello, los RLMs complementan (no reemplazan) técnicas como RAG y se pueden integrar fácilmente como wrapper en aplicaciones empresariales (análisis de código de bases masivas, revisión legal, historiales de chat largos, razonamiento multi-paso). 





No hay comentarios:

Publicar un comentario