Los grandes modelos de lenguaje (LLM) generan textos a un nivel muy convincente en cuanto a "compresión" del diálogo, interpretación de las frases y generación de texto correcto semántica y gramaticalmente en casi cualquier idioma.
Basados en redes neuronales del tipo "transformer", su uso, entrenamiento y funcionalidad son bien conocidos pero, sin embargo, no se comprende exactamente cómo funcionan internamente. Es decir, conocemos perfectamente la estructura de capas y nodos que componen la red, así como los algoritmos matemáticos que modifican y combinan los pesos de cada nodo (y pueden ser cientos de miles de millones), pero no llegamos a entender cómo se va conformando el uso de la información a través de las capas, al ser enorme la complejidad de la combinación de ecuaciones probabilísticas.
Un reciente estudio de investigadores chinos que trabajan para el MIT, han llegado a la conclusión de que el "razonamiento" de la red neuronal se asemeja a los centros semánticos del cerebro y que las entradas en un idioma determinado (por ejemplo, el chino) se equiparan semánticamente a la información en el idioma mayoritaria de los datos de entrenamiento de la red neuronal (por ejemplo, el inglés), realiza sus operaciones probabilísticas entre capas con tokens en el idioma de entrenamiento, y finalmente "traduce" el resultado al idioma de entrada.
Los neurocientíficos piensan que el cerebro humano tiene un "centro semántico" en el lóbulo temporal anterior que integra información semántica de diversos tipos desde los sensores sensoriales (imágenes, tacto, olor, oído...). Este agregador semántico compacta y ordena toda esta información según su significado semántico, convirtiéndola en único bloque uniforme y muy rico en información. Los investigadores del MIT descubrieron que los LLM utilizan un mecanismo similar al procesar de forma abstracta datos de diversas modalidades de una manera central y generalizada. Por ejemplo, un modelo que tiene el inglés como idioma dominante se basaría en el inglés como medio central para procesar entradas en chino, o generar un texto, o generar código informático, etc. Luego, el resultado obtenido "en la lengua materna" se traduce finalmente a la lengua de salida.
El estudio sugiere, adicionalmente, que se puede intervenir en el centro semántico de un modelo mediante el uso de texto en el idioma dominante del modelo para cambiar sus resultados, incluso cuando el modelo está procesando datos en otros idiomas.
El artículo científico completo puede leerse en este enlace.
0 comentarios :
Publicar un comentario