17/3/23

LLaMa

 

Investigadores de META publicaron a finales del mes pasado un artículo técnico titulado LLaMa: Open and Efficient Foundation Language Models donde analizan aproximaciones algorítmicas que requieren menos potencia de cálculo para la generación de texto conversacional.

En efecto, la red neuronal estrella de hoy en día, ChatGPT, debe manejar unos 175.000 millones de parámetros por lo que se requiere de una velocidad y potencia de cómputo realmente importantes, súper ordenadores que sólo están disponibles en las grandes organizaciones, como Microsoft, Google o Intel. Así pues, ChatGPT debe ser usado en línea interaccionando con ese sistema de cómputo tan imponente situado en la sede de la empresa que lo ha creado.

Ahora, el estudio liderado por Hugo Touvron muestra que es posible reducir el número de parámetros en un factor de 10, hasta "sólo" unos 13.000 millones de parámetros con unos resultados, si no iguales, sí suficientemente aceptables para competir con los grandes sistemas en la mayoría de las conversaciones. Estrictamente, los investigadores analizan, en el artículo, una familia de modelos de lenguaje que requieren entre 13.000 y 65.000 millones de parámetros, categorizando las diferencias en rendimiento pero, evidentemente, cuánto más pequeño mejor para un mismo rendimiento. En concreto, el modelo LLaMA-13B con 13.000 millones de parámetros equipara resultados con ChatGPT. 

El resultado es muy interesante porque demuestra que podremos tener pronto sistemas conversacionales, chatbots, capaces de funcionar en un ordenador pequeño y, por tanto, independizarlos de los monstruosos hardwares ahora utilizados, pudiendo ser usados en teléfonos móviles o PCs al modo de lo que se trató en esta entrada de Biblumliteraria.

Meta afirma que el entrenamiento de estas nuevas redes neuronales se ha realizado con bases de datos y corpora de acceso libre y públicas, lo que elimina restricciones de derechos. Esto permitiría que se pudieran poner a disposición de los programadores los códigos originales y, aún más importantes, los pesos de las conexiones que forman la red neuronal, los parámetros. Actualmente, una versión reducida de LLaMA está disponible en GitHub, pero para recibir el código completo y los pesos (los datos de entrenamiento "aprendidos" en una red neuronal), Meta requiere enviar un formulario en el que los investigadores interesados pueden solicitar acceso y que se concederá, o no, según cada caso.

Para comprobar que LLaMA-13B puede competir con ChatGPT, el grupo de investigación lo ha puesto a prueba con algunos test de razonamiento generalmente utilizados en el sector como BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC y OpenBookQA.

El artículo técnico completo puede leerse en este enlace.



No hay comentarios:

Publicar un comentario