¿Piensan los modelos de lenguaje (sean LMM, RLM o LRM)? Evidentemente, no. Basta saber un poquito, muy poquito, sobre redes neuronales y matemática probabilística para saber que no.
Por tanto, no hace falta mucha discusión académica.
No obstante, como elemento de marketing la pregunta tiene campo de actuación. Aunque se hable mal, que se hable, es la máxima publicitaria.
Hace unas semanas, miembros del Apple Machine Learning Research publicaron un artículo técnico titulado The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity en el que realizaban experimentos con juegos (Torres de Hanoi, paso entre orillas, etc.) para ver si la capacidad de resolver problemas mejoraba con el tiempo que se permitía al modelo "razonar". Es decir, si a medida que podía dedicar más tiempo a generar una respuesta, esta mejoraba porque estaba "pensando" y "afinando" la solución. El artículo de Apple concluía que no aunque basándose en razonamientos incompletos que luego fueron refutados por personas que repitieron las experiencias usando los mismos prompts. Particularmente, Apple no había tenido en cuenta que los LLM usados podían simplemente cortar el cálculo no porque no pudieran continuar sino porque requería demasiado tiempo y energía, mostrando un resultado pobre simplemente por aburrimiento, no por incapacidad de mostrarlo mejor. Las conclusiones del estudio son:
En este artículo, examinamos sistemáticamente los modelos avanzados de razonamiento (LRMs, por sus siglas en inglés) desde la perspectiva de la complejidad del problema, utilizando entornos de juegos controlables. Nuestros hallazgos revelan limitaciones fundamentales en los modelos actuales: a pesar de contar con mecanismos sofisticados de autorreflexión, estos modelos no logran desarrollar capacidades de razonamiento generalizables más allá de ciertos umbrales de complejidad. Identificamos tres regímenes de razonamiento distintos: los modelos de lenguaje estándar (LLMs) superan a los LRMs en problemas de baja complejidad, los LRMs destacan en complejidad moderada, y ambos colapsan frente a problemas de alta complejidad. Especialmente preocupante es la reducción contraintuitiva del esfuerzo de razonamiento a medida que los problemas se acercan a una complejidad crítica, lo que sugiere una limitación inherente en la capacidad de escalamiento computacional de los LRMs. Nuestro análisis detallado de las trazas de razonamiento expuso además patrones dependientes de la complejidad, que van desde un “sobreanálisis” ineficiente en problemas simples hasta fallos completos en problemas complejos. Estas observaciones cuestionan las suposiciones predominantes sobre las capacidades de los LRMs y sugieren que los enfoques actuales podrían estar enfrentando barreras fundamentales para lograr un razonamiento verdaderamente generalizable. Finalmente, presentamos algunos resultados sorprendentes sobre los LRMs que abren varias preguntas para investigaciones futuras. Uno de los hallazgos más notables fue su limitación para realizar cálculos exactos; por ejemplo, incluso cuando se les proporcionó el algoritmo de solución de la Torre de Hanói, su rendimiento en ese acertijo no mejoró. Además, al analizar el primer movimiento fallido de los modelos, se observaron comportamientos inesperados: por ejemplo, podían realizar hasta 100 movimientos correctos en la Torre de Hanói, pero no más de 5 movimientos correctos en el acertijo de Cruce del Río. Creemos que nuestros resultados pueden abrir camino a futuras investigaciones sobre las capacidades de razonamiento de estos sistemas.
En mi opinión, discusiones bizantinas que poco aportan. Probablemente, además, Apple, que ha quedado algo descolocado en la carrera de las IAs, necesita también dejarse notar en el sector.
Pero lo divertido del caso es que, posteriormente, se ha publicado, también en ArXiv un artículo de repuesta titulado The Illusion of the Illusion of Thinking, de Alex Lawsen, en el que autor humano da coautoría a Claude "que merece la mayor parte de la autoría". Aparte de la apreciada honestidad del autor al señalar que se ha ayudado notablemente de un LMM al escribir el artículo, resulta interesante ver que un LMM se opone a que los LMM no piensan. ¡Así debe ser! Cada especie debe defenderse a sí misma.
El artículo de Lawson preconiza que la metodología de Apple no era correcta y que, de algún modo, los modelos LMM tienen una cierta "consciencia" de lo que hacen para darse cuenta al menos de que el esfuerzo que están haciendo es desproporcionado. Concretamente, en sus conclusiones, Lawson y Claude afirman:
Los resultados de Shojaee et al. demuestran que los modelos tienen cierta conciencia de los límites de su propio contexto, que la evaluación programática puede pasar por alto tanto las capacidades del modelo como la imposibilidad de algunos acertijos, y que la longitud de la solución predice mal la dificultad del problema. Estas son ideas valiosas desde una perspectiva de ingeniería, pero no respaldan afirmaciones sobre limitaciones fundamentales en el razonamiento.
El trabajo futuro debería:
- Diseñar evaluaciones que distingan entre la capacidad de razonamiento y las limitaciones del resultado
- Verificar la resolubilidad de los acertijos antes de evaluar el rendimiento del modelo
- Utilizar métricas de complejidad que reflejen la dificultad computacional, no solo la longitud de la solución
- Considerar múltiples representaciones de soluciones para separar la comprensión algorítmica de la ejecución
La cuestión no es si los modelos pueden razonar, sino cómo evaluar correctamente ese razonamiento.

No hay comentarios:
Publicar un comentario