El artículo titulado MEMRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory presenta un marco de trabajo innovador diseñado para permitir que los agentes basados en modelos de lenguaje de gran tamaño (LLM) evolucionen de manera autónoma sin necesidad de actualizar sus parámetros internos.
Este estudio es una colaboración de investigadores pertenecientes primordialmente a la Universidad Jiao Tong de Shanghái (Shengtao Zhang, Weinan Zhang, Ying Wen y Muning Wen), junto con especialistas del Instituto de Innovación de Shanghái, la Universidad Xidian, la Universidad Nacional de Singapur, la empresa MemTensor y la Universidad de Ciencia y Tecnología de China.
La investigación parte de una observación fundamental sobre la inteligencia humana: nuestra capacidad para dominar nuevas habilidades a través de la "simulación episódica constructiva", que consiste en recuperar experiencias pasadas para sintetizar soluciones ante tareas inéditas.
Aunque los modelos de lenguaje actuales poseen capacidades de razonamiento notables, carecen de esta facultad de autoevolución dinámica. Las soluciones tradicionales presentan graves deficiencias: el ajuste fino de parámetros es computacionalmente costoso y propenso al "olvido catastrófico", mientras que los métodos de recuperación de información pasivos, como la Generación Aumentada por Recuperación (RAG), se limitan a coincidencias semánticas que a menudo recuperan "ruido" o información irrelevante sin evaluar su utilidad real.
Para resolver este dilema entre estabilidad y plasticidad, los autores proponen MEMRL, un sistema que desacopla el razonamiento estable de un modelo de lenguaje respecto al de una memoria episódica plástica y en constante evolución. En este esquema, el modelo de lenguaje actúa como un "córtex" estable, mientras que la memoria externa funciona como un canal de adaptación continua.
La arquitectura del modelo se basa en el triplete Intención-Experiencia-Utilidad. El núcleo de MEMRL es la transformación del proceso de recuperación de información, pasando de ser una tarea de búsqueda pasiva a un proceso de toma de decisiones activo. Para ello, la memoria se organiza en una estructura de triplete: Intención, Experiencia y Utilidad.
- Intención : Representa el vector numérico de la consulta o tarea del usuario
- Experiencia : Almacena la solución o trayectoria generada anteriormente.
- Utilidad : Es un valor numérico aprendido (valor-Q) que estima el éxito esperado al aplicar esa experiencia específica a intenciones similares.
El funcionamiento del sistema se divide en dos fases críticas de recuperación:
Fase A: Recuerdo basado en similitud. El sistema filtra la memoria para identificar experiencias que sean semánticamente consistentes con la consulta actual, reduciendo el espacio de búsqueda a un subconjunto relevante.
Fase B: Selección consciente del valor. De las opciones filtradas, el agente selecciona aquellas con mayores valores-Q15. Esto permite distinguir estrategias de alto valor de aquellas que, aunque parezcan similares en el lenguaje, han fallado en el pasado.
A diferencia de los métodos que modifican los pesos del modelo, MEMRL realiza un aprendizaje de refuerzo no paramétrico directamente sobre la memoria. Tras completar una tarea y recibir una señal de recompensa del entorno (éxito o fracaso), el sistema actualiza los valores de utilidad utilizando una regla de diferencia temporal inspirada en las ecuaciones de Bellman. Este proceso permite que el agente "recuerde" qué estrategias funcionan realmente a través del ensayo y error.
Los autores demuestran matemáticamente que este proceso es estable. Mediante el uso de promedios móviles exponenciales, prueban que los valores de utilidad convergen hacia el retorno esperado real, filtrando el ruido de alta frecuencia y evitando oscilaciones incontroladas. Además, analizan el sistema como un proceso de "Maximización de la Esperanza Generalizada", lo que garantiza que la política de recuperación se estabilice con el tiempo, evitando así el olvido de las capacidades previamente adquiridas.
La eficacia de MEMRL fue validada en cuatro entornos de prueba diversos y exigentes: BigCodeBench (generación de código), ALFWorld (navegación en entornos físicos), Lifelong Agent Bench (interacción con sistemas operativos y bases de datos) y Humanity's Last Exam (HLE) (razonamiento complejo multidisciplinar). Los resultados muestran que MEMRL supera consistentemente a todos los métodos de referencia, incluyendo sistemas RAG avanzados y otros sistemas de memoria de agentes. Las ventajas son especialmente notables en entornos que requieren una exploración intensiva, como ALFWorld, donde MEMRL logró una mejora relativa del 82% sobre los modelos sin memoria y del 56% sobre los sistemas de memoria de vanguardia anteriores25.
El estudio concluye que MEMRL ofrece una solución robusta al dilema entre estabilidad y plasticidad en la inteligencia artificial. Al mantener el modelo de lenguaje "congelado", se preserva el razonamiento lógico y el conocimiento general del mundo, mientras que la capa de memoria evolutiva permite una adaptación rápida y eficiente a nuevos dominios. Esta investigación marca un cambio de paradigma: la inteligencia de los agentes no tiene por qué residir únicamente en el tamaño de sus parámetros o en la intensidad de su entrenamiento previo, sino en su capacidad para gestionar y valorar activamente sus propias experiencias vividas.


0 comentarios :
Publicar un comentario