6/6/25

Autodepuración de respuestas en Modelos de Lenguaje

 


Los Grandes Modelos de Lenguaje (LLM) generan respuestas de texto basadas en cálculos probabilísticos de las redes neuronales que los componen. Y estos cálculos se basan en los datos con los que fueron entrenadas dichas redes. En concreto, un ingente y milmillonario volumen de datos.

Mientras que la corrección gramatical y sintáctica de los datos de entrenamiento se puede dar por cierta, no es así su corrección en las formas, en las maneras o en lo políticamente correcto, bien sea en genérico o bien sea en el momento. Si un modelo de lenguaje - por poner un ejemplo- ha sido entrenado con numerosas informaciones sobre canibalismo es más que probable que aparezcan frases relacionadas con ello en las respuestas. Serán frases conformadas correctamente en lo sintáctico pero, sin duda, resultaría raro que el LLM generara esas contestaciones si se está hablando de restaurantes italianos o, peor aún, que aparecieran frases que defiendan esa dieta. 

Igualmente, si los datos de entrenamiento contienen muchas palabrotas (por ejemplo, si se usaron muchos panfletos), será normal que el texto generado las contenga.

Es más, como las repuestas se generan sobre la marcha, puede ocurrir que, en una conversación larga, las primeras contestaciones tengan una estilo, pongamos por caso, de elevado lirismo y minutos después, un estilo barriobajero y soez, como si estuviésemos conversando con un psicópata. Ecualizar las respuestas en este caso, mejoraría la comunicación del mismo modo que las personas aprenden a elegir sus palabras y su forma de expresión en función de su personalidad, formación y creencias. Una forma de hablar que va depurándose y mejorando con la edad y la experiencia.

Estos ejemplos son burdos y evidentes pero uno puede imaginar millones de casos mucho más sutiles en los que la respuesta sea del todo inapropiada. No olvidemos que un LMM no piensa, no está conversando, no está entendiendo nada. Sólo calcula una respuesta "posible" . Y esta puede ser descortés sin que el sistema se dé cuenta.

¿Pueden autocensurarse este tipo de respuesta? Obsérvese que utilizo la palabra censurar porque es un tema muy delicado intelectualmente. Ciertamente, si queremos que un LMM simule lo mejor posible el habla humana, el tipo de contestaciones fuera de tiempo, lugar y cultura no debieran ocurrir pero, por otra parte, es muy fácil pasarse en la censura y eliminar respuestas que no agradan al entrenador de la red neuronal, que no son de su línea política, que defienden ideas contrarias, etc.

Investigadores del MIT-IBM Watson AI Lab han desarrollado un método para que los LLM puedan "destoxificar" (en el propio lenguaje de los autores) las repuestas de modo que proporcionen repuestas "más seguras, más éticas y más alineadas con los valores". Dicho así, se difumina la frontera entre la elegancia y la censura social o política. Cabría preguntar, por ejemplo, ¿qué valores? ¿De qué sociedad?

En cualquier caso, el método es interesante. Se denomina Muestreo autorregresivo autodisciplinado (SASA) y permite a los LLMs filtrar las propias salidas del modelo de lenguaje sin sacrificar la fluidez. Aprovecha la naturaleza autorregresiva de los LLMs y, utilizando una estrategia basada en decodificación durante la inferencia, guía gradualmente la generación —un token a la vez— de respuesta alineada con estilo y valores. Así, el algoritmo logra definir un límite entre subespacios "tóxicos/no tóxicos" dentro de la propia representación interna del LLM, sin alterar los parámetros del modelo. Durante la generación, el algoritmo evalúa el valor de toxicidad de la frase parcialmente generada junto con cada nuevo token potencial que podría elegirse razonablemente por su proximidad al límite del clasificador. Al elegir el más cercano al estilo de lo generado, se garantiza la continuidad.

Se trata de un sistema mucho más eficiente que, por ejemplo, revisar y depurar todos los miles de millones de datos de entrenamiento, tarea que resultaría titánica.      

Los investigadores evaluaron su método con tres LLMs, todos basados en redes transformes y basados en autorregresión: GPT2-Large, Llama2-7b y Llama 3.1-8b-Instruct, con 762 millones, 7 mil millones y 8 mil millones de parámetros, respectivamente. Se usaron dos métricas de evaluación: la puntuación máxima de toxicidad promedio en las 25 generaciones para todos los prompts suministrados  y la tasa de toxicidad promedio, que era la probabilidad de producir al menos una frase tóxica en 25 generaciones. También se analizaron la reducción de fluidez. También, se fue aumentando la toxicidad de entrada de las preguntas para hacer más complicado que la respuesta no las reprodujera. 

SASA logró reducciones significativas en la generación de lenguaje tóxico, desempeñándose a la par con RAD, una técnica de modelo de recompensa externa de última generación. Se observó, de todos modos, que una detoxificación más fuerte venía acompañada de una disminución en la fluidez .

El artículo científico completo puede leerse en este enlace.



0 comentarios :