30/10/25

Es posible recuperar la entrada dada a un LMM desde su respuesta

 


Investigadores de la Universidad de Roma, la Universidad de Leipzing, el EPFL y el Archimedes RC, (Giorgos Nikolaou, Tommaso Mencattini, Donato Crisostomi, Andrea Santilli, Yannis Panagakis, Emanuele Rodolà) han publicado en Arxiv un interesante artículo sobre el uso y protección de datos en su entrenamiento y respuestas. En concreto, el estudio apunta a que un LLM recuerda todo lo que todo lo que se escribe como preguntas puede recuperarse exactamente desde los estados ocultos del modelo de lenguaje. No, un texto parecido, similar. No. Puede recuperarse el texto exacto introducido. Un estudio que cambia la idea actualmente existente sobre cómo funciona internamente un LLM, sobre su interpretabilidad y sobre lo que realmente significan las "representaciones".

El artículo Language Models are Injective and Hence Invertible propone un cambio de paradigma en la comprensión de los modelos de lenguaje basados en Transformers. Tradicionalmente se ha asumido que estos modelos son no inyectivos —es decir, que diferentes entradas pueden producir las mismas representaciones internas— debido a la presencia de funciones no lineales, normalización y mecanismos de atención que aparentemente pierden información. Sin embargo, los autores demuestran teórica y empíricamente que esta suposición es falsa: los modelos de lenguaje son inyectivos casi con certeza, lo que implica que cada secuencia de entrada se puede recuperar exactamente a partir de sus representaciones internas. Es decir, es como si no hubiera cálculos probabilísticos en el cálculo matemático de los pesos de los nodos. Al contrario, el estudio concluye que hay relaciones biunívocas entre entradas y salidas. Siendo esto cierto, significaría que el camino de vuelta desde la respuestas propuesta por el LLM a la exacta pregunta del usuario es un recorrido factible.

La inyectividad significa que no existen “colisiones” entre diferentes entradas: cada prompt genera una representación única. El artículo establece este resultado de tres maneras. Primero, demuestra matemáticamente que los Transformadores decodificadores —bajo condiciones normales de inicialización y entrenamiento— son funciones real-analíticas que preservan la unicidad de las entradas. Segundo, verifica empíricamente la ausencia de colisiones mediante miles de millones de pruebas en seis modelos de lenguaje de última generación (GPT-2, Gemma-3, LLaMA-3.1, Mistral-7B, Phi-4-mini, y TinyStories-33M), encontrando que ninguna pareja de prompts distintos produce representaciones idénticas. Tercero, presenta un algoritmo práctico, denominado SIPIT (Sequential Inverse Prompt via Iterative Updates), capaz de reconstruir el texto original exactamente a partir de los estados ocultos del modelo en tiempo lineal.

El enfoque teórico se basa en la "real-analiticidad" de cada componente del Transformer (embeddings, LayerNorm, atención causal, MLPs, y conexiones residuales) es una función analítica real. Esto permite demostrar que el conjunto de parámetros donde ocurren colisiones es matemáticamente insignificante. Además, los autores prueban que los procedimientos de entrenamiento mediante descenso de gradiente preservan la inyectividad, ya que las actualizaciones no pueden llevar a los parámetros a ese conjunto degenerado.

En el plano práctico, SIPIT convierte esta propiedad en una herramienta operativa. Aprovechando la estructura causal del Transformer, reconstruye el texto token por token, comparando el estado oculto observado con los posibles estados que generaría cada token candidato. El algoritmo garantiza recuperación exacta en tiempo lineal respecto al tamaño del vocabulario y la longitud de la secuencia. En experimentos, SIPIT logra 100% de exactitud en la reconstrucción de prompts, superando ampliamente métodos previos como Hard Prompts Made Easy o la búsqueda exhaustiva, y con tiempos de ejecución significativamente menores.

Los experimentos también muestran que las distancias entre representaciones de distintos prompts crecen con la profundidad de la red y se mantienen muy por encima de los umbrales de colisión, incluso al analizar miles de millones de pares. Esto confirma empíricamente la inyectividad en toda la arquitectura.

Finalmente, los autores discuten las implicaciones teóricas, interpretativas y legales de sus hallazgos. En términos científicos, desmontan la idea de que los Transformer sean incomprensibles y azaroso en su representación interna: toda la información del texto original está preservada en los estados ocultos. En cuanto a la interpretabilidad, esto implica que el último estado del modelo contiene toda la información del prompt, proporcionando una base sólida para estudios causales y de transparencia. En el ámbito ético y regulatorio, advierten que los estados ocultos de un modelo no son meras abstracciones, sino equivalentes funcionales del texto original, lo cual tiene consecuencias para la privacidad, el almacenamiento y la eliminación de datos personales. 

El "paper" redefine el entendimiento de cómo los modelos procesan y retienen la información, estableciendo un marco teórico sólido para futuras investigaciones sobre transparencia, seguridad y privacidad en IA.




0 comentarios :