ChatGPT y los modelos de generación de texto basados en redes neuronales están pensados, primariamente, para entablar "diálogos" basados en texto, de momento escrito y mostrado sobre la pantalla; en el futuro trasladando ese texto a un generador vocal.
Pero, en la vida real, muchas de las conversaciones que mantenemos hacen referencia a imágenes o referencias visuales. El diálogo que se ve en la cabecera, tomado del estudio que vamos a analizar, es de este tipo:
- ¿Qué manzana prefieres?
- Me gusta esa tan brillante
- ¿Te refieres a esa roja?
- Sí, a esa ciertamente.
- De acuerdo, tomémosla.
En este diálogo ambos interlocutores están refiriéndose a las imágenes que ven y, basándose exclusivamente en un texto, nunca podríamos llegar a entendernos de esta manera.
Investigadores del Instituto de Tecnología de Estocolmo, liderados por Bram Willemsen, han abordado este problema, mostrando sus estudios y resultados en este artículo científico.
Los modelos de lenguaje basados en imágenes (VLM; Visual Language Model, en su terminología inglesa) ya han sido probados con éxito para seleccionar imágenes con una pregunta textual definida. Pero, hasta ahora, seleccionar y "entender" una imagen dentro de una conversación sigue resultando muy difícil.
Los investigadores han entrenado la red neuronal para que genere correlaciones entre las definiciones del texto e imágenes. Esto conlleva, por ejemplo, saber distinguir de entre todas las frases aquellas que hacen referencia a conceptos visuales de las demás y referenciarlas a los elementos visuales. Así, ese "¿te refieres a esa roja?" debería convertirse en el modelo computacional en un "¿te refieres a esa manzana roja de la imagen?". Con este entrenamiento relacional, pueden unirse los modelos de lenguaje LLM con los VLM.
Las bases conceptuales y matemáticas de este proceso pueden leerse en el artículo mencionado, en este enlace.
No hay comentarios:
Publicar un comentario