28/9/23

ChatGPT en diálogos referidos a imágenes

 


ChatGPT y los modelos de generación de texto basados en redes neuronales están pensados, primariamente, para entablar "diálogos" basados en texto, de momento escrito y mostrado sobre la pantalla; en el futuro trasladando ese texto a un generador vocal.

Pero, en la vida real, muchas de las conversaciones que mantenemos hacen referencia a imágenes o referencias visuales. El diálogo que se ve en la cabecera, tomado del estudio que vamos a analizar, es de este tipo:

- ¿Qué manzana prefieres?

- Me gusta esa tan brillante

- ¿Te refieres a esa roja?

- Sí, a esa ciertamente.

- De acuerdo, tomémosla.

En este diálogo ambos interlocutores están refiriéndose a las imágenes que ven y, basándose exclusivamente en un texto, nunca podríamos llegar a entendernos de esta manera.

Investigadores del Instituto de Tecnología de Estocolmo, liderados por Bram Willemsen, han abordado este problema, mostrando sus estudios y resultados en este artículo científico.

Los modelos de lenguaje basados en imágenes (VLM; Visual Language Model, en su terminología inglesa) ya han sido probados con éxito para seleccionar imágenes con una pregunta textual definida. Pero, hasta ahora, seleccionar y "entender" una imagen dentro de una conversación sigue resultando muy difícil. 

Los investigadores han entrenado la red neuronal para que genere correlaciones entre las definiciones del texto e imágenes. Esto conlleva, por ejemplo, saber distinguir de entre todas las frases aquellas que hacen referencia a conceptos visuales de las demás y referenciarlas a los elementos visuales. Así, ese "¿te refieres a esa roja?" debería convertirse en el modelo computacional en un "¿te refieres a esa manzana roja de la imagen?". Con este entrenamiento relacional, pueden unirse los modelos de lenguaje LLM con los VLM.

Las bases conceptuales y matemáticas de este proceso pueden leerse en el artículo mencionado, en este enlace.




No hay comentarios:

Publicar un comentario