La adopción de modelos de lenguaje (LLMs) en instituciones financieras para tareas como conciliaciones, informes normativos y legales, análisis de instrucciones y comunicaciones con clientes enfrenta un obstáculo crítico: la indeterminación posible en las respuestas, conocida como output drift. Efectivamente, un LLM es una red neuronal especializada en lenguaje natural y, por tanto, genera sus respuestas de manera probabilística. No es que necesariamente una respuesta probabilística sea errónea (que puede serlo) sino que el que todas las respuestas sean diferentes para usuarios que están haciendo la misma pregunta concreta, resulta confuso y genera dudas.
El contexto industrial refuerza la importancia del problema. Diversos incidentes en los años 2024–2025 evidencian fallos de determinismo en modelos comerciales —como anomalías en Claude por errores de compilación, variabilidad en modelos de 235 giga parámetros, degradación no determinista en Codex y fallos de infraestructura en Azure— que subrayan la fragilidad de los sistemas actuales. A escala económica, la verificación humana requerida por la falta de confianza en la salida de los LLMs deteriora los beneficios proyectados con su utilización, pérdidas estimadas en cientos de miles de millones de dólares. Así, esta variabilidad compromete la fiabilidad, la auditabilidad , la reproducibilidad, las economías previstas y, en consecuencia, la confianza en las respuestas.
Un estudio publicado en arXiv analiza de manera sistemática este problema en cinco casos de tareas financieras sujetas a normas o leyes, revelando una relación inversa sorprendente: los modelos pequeños (7–8 gigaparámetros) logran un 100% de consistencia, mientras que un modelo de 120 gigaparámetros muestra apenas un 12,5% de consistencia en sus respuestas, independientemente de la configuración empleada. Este hallazgo desafía la creencia de que los modelos más grandes son siempre superiores para usos en producción.
¿Pero, sería posible que a pesar de ser los LLM probabilísticos, dieran siempre la misma respuesta concreta a una pregunta concreta? Un reciente artículo de investigadores liderados por Raffi Khatchadourian, de IBM, analiza esta cuestión.
Para abordar estas limitaciones, el trabajo presenta varias propuestas. Primero, realiza un test harness financiero de determinismo que combina greedy decoding (T=0), semillas fijas y un sistema de recuperación basado en la estructura de informes 10-K de la SEC. Segundo, introduce verificaciones invariantes para tareas típicas de RAG, JSON y SQL, utilizando umbrales de confianza financiera (±5%) y validación de informaciones. Tercero, establece una clasificación de modelos en tres niveles para orientar decisiones según el riesgo. Cuarto, desarrolla un sistema de atestación audit-ready con validación entre proveedores.
El estudio ha utilizado cinco modelos de lenguaje —Qwen2.5-7B, Granite-3-8B, Llama-3.3-70B, Mistral-Medium-2505 y GPT-OSS-120B— a lo largo de 480 ejecuciones. Los resultados indican que tareas estructuradas como SQL permanecen estables, mientras que las tareas de recuperación de información (RAG) muestran una deriva significativa dependiendo del tipo de trabajo. La validación cruzada confirma que el determinismo puede mantenerse o no tanto en entornos locales y en la nube. Además, se demuestra que el marco propuesto se alinea con los requisitos del FSB, BIS y CFTC, lo que constituye una ruta práctica hacia implementaciones de IA preparadas para cumplir las obligaciones legales.
El estudio demuestra empíricamente que el determinismo no es una propiedad universal de los LLM. Los modelos pequeños, bien diseñados, superan ampliamente en consistencia a los modelos grandes, lo que tiene profundas implicaciones para las aplicaciones donde la reproducibilidad es obligatoria. Todo ello indica que las instituciones financieras requieren estándares diferenciados de los de otros sectores, en los que las decisiones de crédito, trading y riesgo deben mantenerse explicables y reproducibles incluso años después.
El artículo propone una estrategia dual: usar modelos pequeños y deterministas (7–8 Gp) en producción para tareas críticas como adjudicación crediticia, informes legales o conciliaciones, y reservar los modelos grandes para entornos experimentales. Las medidas recomendadas incluyen semillas fijas, ordenamiento normalizado en RAG, invariantes de ±5% y auditorías completas mediante trazas reproducibles.
El trabajo concluye que el tamaño del modelo no determina su idoneidad para aplicaciones financieras sujetas a normas legales. Por el contrario, los modelos compactos —como Granite-3-8B y Qwen2.5-7B— ofrecen la consistencia necesaria para cumplir con auditorías y normativas. El futuro de la IA en finanzas apunta hacia arquitecturas más pequeñas, eficientes y verificables, más que hacia modelos cada vez más grandes.

No hay comentarios:
Publicar un comentario