Tras el éxito de la edición 2023, se celebra nuevamente el desafío BabyLM que anima a los participantes a crear mini modelos de sistemas de generación y aprendizaje de lenguaje. Por así decirlo, miniaturas de ChatGPT o similares.
Concretamente, el objetivo de BabyLM es incentivar a los investigadores en el modelado cognitivo para que centren sus esfuerzos en optimizar el preentrenamiento teniendo en cuenta los datos disponibles. Se trata de lograr un preentrenamiento eficiente por muestreo en un corpus razonablemente pequeño, entendiéndose por pequeño aquel volumen de palabras y frases que puede haber aprendido un niño de 5 o 6 años.
El siguiente gráfico, propuesto en uno de los documentos citados más abajo, muestra cómo los LLM actuales de éxito utilizan bases de entrenamiento enormes respecto a la que usa un niño de 13 años y, sin embargo, este habla siempre mejor que un sistema neuronal artificial. Por tanto, algo importante se nos escapa a la hora de simular el lenguaje humano y se trata, precisamente, de trabajar sobre ello.
La organización, en colaboración con CoNLL y CMCL, proporciona una plataforma de desarrollo y un corpus de tamaño limitado restringido a frases con 10 millones y 100 millones de palabras. A partir de ahí, los participantes deben imaginar y desarrollar arquitecturas de programación, rutinas de autosupervisión y de aprendizaje automático, etc. más eficientes que las actuales.
Siendo un desafío para personas especializadas en redes neuronales, las bases se dan en sendos artículos científicos que pueden leerse en este enlace, con una ampliación en este otro.
El portal del desafío puede verse en este enlace.
No hay comentarios:
Publicar un comentario