Los modelos tradicionales de generación de texto funcionan seleccionando palabras secuencialmente de un vocabulario fijo y predeterminado. Sin embargo, investigadores de Tencent AI Lab y el Instituto de Tecnología de Beijing propusieron a finales del 2023 una aproximación radicalmente diferente que reformula este proceso como una serie de operaciones de copiar y pegar fragmentos de texto desde colecciones existentes. Esta metodología, implementada en un modelo llamado COG (Copy-Generator), representa un cambio de paradigma en cómo concebimos la generación automática de lenguaje.
La idea fundamental es que, en lugar de predecir el siguiente token de un vocabulario estático, el modelo busca y recupera frases completas de contextos específicos dentro de documentos existentes. Estas frases pueden ser de longitud variable, desde palabras individuales hasta expresiones multi-palabra, y lo crucial es que cada frase mantiene su representación contextualizada original. El sistema construye una tabla de frases mediante codificadores que computan representaciones vectoriales para cada segmento de texto, indexándolas usando herramientas eficientes de búsqueda vectorial. Durante la generación, en cada paso de decodificación, el modelo busca la frase más adecuada de esta colección y la añade al prefijo actual.
Esta aproximación ofrece ventajas significativas sobre los modelos neuronales tradicionales. Primero, al seleccionar frases en contextos específicos en lugar de tokens aislados, permite representaciones más precisas y selecciones más acertadas. Segundo, facilita la adaptación sin entrenamiento a nuevas fuentes de conocimiento, simplemente actualizando la colección de textos de manera modular, lo que beneficia escenarios como la adaptación a dominios específicos. Tercero, al generar múltiples tokens simultáneamente en un solo paso, reduce el número total de pasos de decodificación, mejorando la eficiencia de inferencia.
Los experimentos realizados sobre el benchmark WikiText-103 demostraron que COG supera sustancialmente a los sistemas estándar tanto en métricas automáticas como en evaluación humana. Específicamente, obtuvo una puntuación MAUVE de 26.14 frente a 23.43 del mejor baseline, y en preferencia humana alcanzó un 48% frente al 28% del modelo Transformer tradicional. Incluso usando búsqueda codiciosa (greedy search), que típicamente causa problemas de degeneración, COG superó a Transformers con nucleus sampling, demostrando mayor robustez. La eficiencia de inferencia resultó comparable a modelos autorregresivos a nivel de token gracias a la reducción de pasos de decodificación, ya que las frases copiadas frecuentemente contienen múltiples tokens.
El modelo también demostró capacidades excepcionales de adaptación a dominios específicos sin entrenamiento adicional. Al cambiar la colección de textos de WikiText-103 a Law-MT, un corpus legal, COG superó incluso a modelos Transformer específicamente entrenados en ese dominio. Además, al escalar la colección a un corpus más grande, el modelo obtuvo mejoras adicionales sin ningún entrenamiento extra, sugiriendo que puede entrenarse con corpus pequeños pero aprovechar información de colecciones mayores de forma plug-and-play.
La arquitectura de COG consta de tres componentes principales: un codificador de prefijos basado en Transformer con atención causal, un codificador de frases que usa BERT bidireccional para generar representaciones contextualizadas, y embeddings de tokens independientes del contexto que permiten generación de tokens individuales cuando no hay frases adecuadas disponibles. El entrenamiento combina una pérdida para predicción de frases usando InfoNCE con negativos en el batch, y una pérdida autorregresiva estándar a nivel de token. Este enfoque innovador abre nuevas posibilidades para la generación de texto, demostrando que copiar inteligentemente puede ser tan poderoso como generar desde cero.
La fundamentación matemática de COG reformula la generación de texto reemplazando la distribución softmax tradicional pθ(xᵢ = w|x<ᵢ) = exp(vw · hᵢ) / Σw'∈V exp(vw' · hᵢ) sobre un vocabulario fijo V por una distribución sobre frases contextualizadas p(k|x<ᵢ) ∝ exp(pk · qᵢ), donde pk es la representación de la frase k y qᵢ la del prefijo, estableciendo un espacio vectorial compartido donde el producto punto mide la idoneidad semántica. El codificador de frases logra eficiencia mediante una arquitectura que primero genera representaciones bidireccionales D̂ ∈ ℝᵐˣᵈᵗ para un documento, luego aplica dos MLPs produciendo Dₛₜₐᵣₜ y Dₑₙᵈ en ℝᵐˣ⁽ᵈ/²⁾, y construye cualquier frase como PhraseEncoder(s, e, D) = [Dₛₜₐᵣₜ[s]; Dₑₙᵈ[e]], almacenando solo 2m vectores en lugar de O(m²) representaciones de frases.
El entrenamiento utiliza la pérdida contrastiva InfoNCE: Lₚ = -1/n Σₖ log [exp(qₖ · pₖ) / (Σₚ'∈Pₖ exp(qₖ · pₚ') + Σw∈V exp(qₖ · vw))], que maximiza la similitud entre prefijos y sus continuaciones correctas mientras las distingue de negativos duros del mismo documento, complementada con la pérdida autorregresiva estándar Lₜ para mantener generación a nivel de token, combinándose como L = Lₚ + Lₜ. La inferencia enfrenta el problema de Maximum Inner Product Search sobre miles de millones de frases mediante una estrategia coarse-to-fine: primero recupera K≈1024 documentos relevantes usando DPR y FAISS, luego busca exhaustivamente sobre sus frases el máximo k* = argmaxₖ∈P' (pk · qᵢ). La decodificación puede ser codiciosa seleccionando directamente el máximo, o mediante nucleus sampling convirtiendo puntuaciones en probabilidades p(k|qₜ) = exp(pk · qₜ) / Σₖ' exp(pₖ' · qₜ) y muestreando del subconjunto con masa acumulada p=0.95. El algoritmo de segmentación para entrenamiento implementa forward maximum matching, buscando en cada posición el prefijo más largo que aparezca en otros documentos para cortarlo como frase, aproximando búsqueda exhaustiva O(N·m²) a O(K·m²) mediante restricción a documentos similares, mientras la evaluación emplea MAUVE que modela distribuciones como mezclas gaussianas en espacio latente y computa divergencia de frontera, junto con métricas de repetición Rep-n y diversidad que capturan degeneración y riqueza léxica mediante productos de unicidad de n-gramas.Claude es IA y puede cometer errores. Por favor, verifica nuevamente las respuestas.
El artículo puede leerse en este enlace.


0 comentarios :
Publicar un comentario