11/10/24

Contextual Document Embeddings

 


Investigadores de la Universidad de Cornell, liderados por John Morris, han publicado el artículo científico titulado Contextual Document Embeddings. Aborda el cómo representar y catalogar informáticamente las relaciones entre textos, algo fundamental no sólo a la hora de archivarlos informáticamente sino a la hora de su uso en, por ejemplo, el entrenamiento de modelos de lenguaje LLM.

En el uso del aprendizaje automático, Deep Learning, para la recuperación de textos, se han utilizado, tradicionalmente, enfoques estadísticos que utilizaban métodos de correspondencia léxica basados en frecuencias de n-gramas. Pero, actualmente, las redes neuronales han llegado a competir con los modelos estadísticos más avanzados en tareas de recuperación mediante una arquitectura de codificador dual que codifica de forma independiente tanto un documento como una consulta en un espacio latente para la búsqueda de recuperación. Este espacio de incrustación de documentos mejora el modelo clásico estadístico, ya que se "aprende" de principio a fin para la recuperación. Pareciera así que los métodos estadísticos clásicos fueran cosas del pasado. 

Sin embargo, hay al menos una ventaja notable de los enfoques estadísticos que pierden los modelos neuronales. Los modelos estadísticos incluyen en su codificación del texto, estadísticas adicionales del resto del corpus que pueden resultar muy útiles a la hora de trabajar con esos textos y/o facilitar su recuperación desde una gran base de datos.  

Los autores defienden que los sistemas habituales que las redes neuronales usan para recuperar información pierden ese contexto del corpus global y que, por ejemplo, el tratamiento de documentos debería tener en cuenta tanto el documento como los documentos vecinos en su contexto, de forma análoga a las incrustaciones de palabras contextualizadas. 

Como consecuencia, se proponen dos métodos complementarios para la incrustación contextualizada de documentos. Los resultados muestran que ambos métodos obtienen mejores resultados  

El artículo completo puede leerse desde este enlace.


No hay comentarios:

Publicar un comentario