27/8/24

Bajo rendimiento de los LLM con datos estructurados

 


Investigadores de la Appier AI Research y la Universidad Nacional de Taiwan han presentado un artículo científico en el que analizan el rendimiento en la generación de texto por un gran modelo de lenguaje (LLM) cuando se fuerza a la red neuronal a estructurar ese texto con formatos estándar del tipo JSON o XML.

JSON es un formato de texto que forma parte de JavaScript y que se basa en su sintaxis, pero no tiene como objetivo la creación de programas, sino el acceso, almacenamiento e intercambio de datos para que estos sean fácilmente compartidos por aplicaciones informáticas diversas.

El rendimiento de los LLM cuando se les deja que las repuestas sean libres es relativamente potente, al menos en lo que se refiere a la sintaxis y la corrección gramatical (no tanto, como se ha visto en bastantes entradas de este blog, en lo que respecta a ofrecer datos falsos o de baja calidad literaria). El artículo técnico al que nos referimos, que puede leerse desde este enlace, concluye que el rendimiento de los LLM se degrada fuertemente cuando se constriñe la respuesta a un formato de salida determinado, particularmente JSON. 

Me parece que este resultado era previsible. Las redes neuronales generan texto en base a otros millones de textos anteriormente usados para el "entrenamiento" de dicha red. Y, claro, estos millones de documentos de entrenamiento son habitualmente textos lineales (novelas, informes, noticias de periódicos, entradas de blogs, etc.) y no datos formateados. Por ello, el LLM genera textos "lineales" y no estructurados de alguna manera.

Dado que el uso de datos estructurados es fundamental en los sectores industrial, sanitario, científico y financiero, se trata de un problema que necesita ser abordado con urgencia. Los autores proponen algunas posibles soluciones a implementar en las redes LLM para que mejoren su calidad a la hora de generar textos estructurados.


0 comentarios :