19/11/23

Catálogo de modelos de lenguaje

 


Investigadores de la Universidad Jiao Tang de Shanghai, liderados por Ziyin Zhang, han publicado un muy interesante artículo científico en el que hacen un repaso y una catalogación de todos los modelos y desarrollos de generación de lenguaje, desde los primeros ensayos hasta los transformes pre-entrenados que han dado luz a GPT o BERT, con especial énfasis en analizar su código. Además, el grupo investigador mantiene el ensayo en curso, poniendo toda la información actualizada a disposición de otros grupos de trabajo, vía Github.

Se revisan sistemáticamente los avances recientes en el procesamiento de código con modelos lingüísticos, abarcando más de 50 modelos diferentes, más de 30 tareas de evaluación y 500 trabajos relacionados. Hay una catalogación de los modelos de procesamiento de código en modelos lingüísticos generales, representados por la familia GPT, y en modelos especializados que se pre-entrenan específicamente para una tarea especializada a medida. Se analizan  las relaciones y diferencias entre estos modelos, estudiando la transición histórica del modelado de código desde los iniciales modelos estadísticos y las RNN a los modelos pre-entrenados y de estos a los Transformers y los LLM pre-entrenados. Finalmente, se analizan las características específicas del código de programación, como AST, CFG y tests específicos, junto con su aplicación en el entrenamiento de modelos de lenguaje de código y el desarrollo futuro de los mismos.

El artículo da un repaso, ligero en profundidad pero ilustrativo, de las bases matemáticas de los modelos, particularmente del cálculo estadístico y probabilístico que permite generar el texto más razonable a generar en base a los parámetros de consulta establecidos.

La figura 2 del artículo es muy interesante porque muestra la enorme aceleración que la profundidad y éxito de los códigos desarrollados en los últimos 2 años. Después de décadas de lento avance técnico, desde el 2021 la capacidad de las redes neuronales generadoras de lenguaje han mejorado exponencialmente.

Puede leerse el artículo completo, con la suficiente calma y profundidad, desde este enlace.



 



0 comentarios :