12/1/25

Toolformer

 


Se ha publicado un artículo científico sobre una nueva aplicación de inteligencia artificial denominada Toolformer, desarrollado por investigadores del Meta AI Research  y la Universitat Pompeu Fabra. El primer autor del paper es Timo Schick.

Puede leerse completamente en este enlace.

Como es bien sabido los grandes modeles de lenguaje LLM ofrecen buenos resultados en muchas tareas que requieren el uso del lenguaje natural, "comprendiendo" la pregunta y respondiendo de manera sintácticamente correcta, aunque en ocasiones con textos que se alejan de la verdad en lo que ha venido a llamarse alucinaciones de la red neuronal.

Sin embargo, todos  estos modelos tienen varias limitaciones inherentes como, por ejemplo, la incapacidad de acceder a  información actualizada sobre acontecimientos recientes y la consiguiente tendencia a "inventar" para dar una respuesta sea como sea, es decir a alucinar. Asimismo, presentan dificultades de comprensión de lenguas con pocos recursos en el corpus,  la falta de conocimientos matemáticos para y el desconocimiento de la  la progresión del tiempo 

Una manera de solventar dichos problemas sería dotar a la red neuronal de la capacidad de utilizar aplicaciones externas que le permitieran acceder a datos no usados en la fase de entrenamiento. Por ejemplo, el acceso a la red on-time, le permitiría encontrar datos actualizados y evitar respuestas contradictorias con la realidad actual. El acceso al calendario del ordenador local, le permitiría evitar contradicciones temporales, la posibilidad de usar la calculadora que cualquier ordenador tiene, evitaría errores matemáticos. Incluso, el acceso y la capacidad de interactuar con programas matemáticos especializados como MathLab le permitiría cálculos complejos. O interactuar con cualquier software en general.

Toolformer viene, precisamente, a desarrollar este proceso de acceso a aplicaciones externas. En este estudio se han tenido en cuenta dos factores que los autores consideran importantes: la capacidad de que ese uso de programas externos pueda ser hecho sin intervención humana y la conservación del uso general de los datos de entrenamiento, haciendo que sea la propia red neuronal la que decida cuándo llamar a aplicaciones externas o decidir que basta con la información de la red.

Para el desarrollo de Toolformer, se parte de una idea ya existente en desarrollos previos, cual es el utilizar grandes LM con aprendizaje en contexto para generar  conjuntos de datos completos desde cero. Por ejemplo, alimentando la red con un conjunto de ejemplos escritos por humanos sobre  cómo se puede utilizar una API, dejamos que un LMM desarrolle por sí mismo  un enorme conjunto de datos de modelado lingüístico con posibles  llamadas a dicha API. A continuación, se determinan cuáles de estas llamadas  al modelo son útiles para predecir futuros tokens. Por último, el propio LMM usa las llamadas a la API que considera útiles. 



0 comentarios :