16/3/20

BERT





BERT, acrónimo de Bidirectional Encoder Representations from Transformers, es un modelo de representación de lenguaje natural propuesto por JacobDevlin, Ming-WeiChang, KentonLee y KristinaToutanova. 


Era ya conocido, tanto en procesamiento de lenguaje NLP como en visión artificial, que una red neuronal puede ser más efectiva si previamente es pre-enseñada en un contexto bien definido y controlado. En esta primera fase, pues, se ajusta la red neuronal para que dé buenos resultados en esa conjunto controlado y, después, se aplica la red neuronal al caso real genérico incontrolado. Los resultados obtenidos, por lo general, son mejores que si la red se hubiera enfrentado directamente al caso genérico. 


BERT utiliza Transformer, un sistema que aprende relaciones contextuales entre palabras de una frase. Transformer lee todas las palabras de la frase a la vez, no secuencialmente de derecha a izquierda o viceversa, con lo que crea relaciones matemáticas de una palabra, no con sus adyacentes, sino con toda la frase en su conjunto. 

Para entrenar a la red se sustituyen hasta un 15%-20% de palabras por variables y la red crea sus conexiones hasta que acierta con el valor real que tienen esas variables en la frase. También es entrenado con pares de frases, pregunta-respuesta, ajustando los pesos de las conexiones neuronales para dar la respuesta correcta. 

Cuando, después, se aplica esta red entrenada a casos genéricos, la capacidad de acierto - comprensión, generación de respuesta- es mayor que en las técnicas anteriores.

En todo caso, para comprender toda la complejidad del sistema puede leerse el articulo original en ArXiv.

Sobre TRansformer, puede leerse este otro artículo técnico.






No hay comentarios:

Publicar un comentario