Se ha publicado un artículo científico sobre una nueva aplicación de inteligencia artificial denominada Toolformer, desarrollado por investigadores del Meta AI Research y la Universitat Pompeu Fabra. El primer autor del paper es Timo Schick.
Puede leerse completamente en este enlace.
Como es bien sabido los grandes modeles de lenguaje LLM ofrecen buenos resultados en muchas tareas que requieren el uso del lenguaje natural, "comprendiendo" la pregunta y respondiendo de manera sintácticamente correcta, aunque en ocasiones con textos que se alejan de la verdad en lo que ha venido a llamarse alucinaciones de la red neuronal.
Sin embargo, todos estos modelos tienen varias limitaciones inherentes como, por ejemplo, la incapacidad de acceder a información actualizada sobre acontecimientos recientes y la consiguiente tendencia a "inventar" para dar una respuesta sea como sea, es decir a alucinar. Asimismo, presentan dificultades de comprensión de lenguas con pocos recursos en el corpus, la falta de conocimientos matemáticos para y el desconocimiento de la la progresión del tiempo
Una manera de solventar dichos problemas sería dotar a la red neuronal de la capacidad de utilizar aplicaciones externas que le permitieran acceder a datos no usados en la fase de entrenamiento. Por ejemplo, el acceso a la red on-time, le permitiría encontrar datos actualizados y evitar respuestas contradictorias con la realidad actual. El acceso al calendario del ordenador local, le permitiría evitar contradicciones temporales, la posibilidad de usar la calculadora que cualquier ordenador tiene, evitaría errores matemáticos. Incluso, el acceso y la capacidad de interactuar con programas matemáticos especializados como MathLab le permitiría cálculos complejos. O interactuar con cualquier software en general.
Toolformer viene, precisamente, a desarrollar este proceso de acceso a aplicaciones externas. En este estudio se han tenido en cuenta dos factores que los autores consideran importantes: la capacidad de que ese uso de programas externos pueda ser hecho sin intervención humana y la conservación del uso general de los datos de entrenamiento, haciendo que sea la propia red neuronal la que decida cuándo llamar a aplicaciones externas o decidir que basta con la información de la red.
Para el desarrollo de Toolformer, se parte de una idea ya existente en desarrollos previos, cual es el utilizar grandes LM con aprendizaje en contexto para generar conjuntos de datos completos desde cero. Por ejemplo, alimentando la red con un conjunto de ejemplos escritos por humanos sobre cómo se puede utilizar una API, dejamos que un LMM desarrolle por sí mismo un enorme conjunto de datos de modelado lingüístico con posibles llamadas a dicha API. A continuación, se determinan cuáles de estas llamadas al modelo son útiles para predecir futuros tokens. Por último, el propio LMM usa las llamadas a la API que considera útiles.
0 comentarios :
Publicar un comentario