TinyStories: How Small Can Language Models Be and Still Speak Coherent English?, de Ronen Eldan y Yuanzhi Li (de Microsoft Research), es un artículo publicado en 2023 que aborda la cuestión de cuál es el tamaño mínimo que debe tener un modelo de lenguaje para ser capaz de generar texto coherente y fluido en inglés. Una pregunta interesante ya que los actuales LMM necesitan océanos de datos, capacidad de procesamiento muy elevada y consumen ingentes cantidades de energía. Reducirlos al mínimo permitiría una eficiencia mucho mayor.
El problema de partida es bien conocido en la literatura especializada: los modelos de lenguaje pequeños (Small Language Models, SLMs), es decir, aquellos con alrededor de 125 millones de parámetros como GPT-Neo (small) o GPT-2 (small), raramente logran producir texto consistente más allá de unas pocas palabras, incluso después de un entrenamiento extensivo sobre grandes corpus . Estos modelos tienden a generar oraciones incoherentes, repetitivas o sin sentido, incapaces de mantener un tema claro o una estructura lógica a lo largo de varios párrafos. La pregunta que surge naturalmente es si esta limitación es una consecuencia intrínseca del tamaño reducido del modelo, o si más bien se debe a la excesiva amplitud y diversidad de los datos con los que se entrenan.
Cuando un modelo se entrena sobre corpus masivos como Wikipedia o Common Crawl, no solamente aprende las reglas gramaticales del lenguaje: también debe aprender a codificar y recuperar una cantidad ingente de hechos y conceptos provenientes de los más diversos dominios del saber humano. Los autores plantean la hipótesis de que esta sobrecarga informativa puede estar impidiendo que los SLMs aprendan los mecanismos esenciales del lenguaje. Si se pudiera diseñar un conjunto de datos que preservara los elementos fundamentales del lenguaje natural —gramática, vocabulario, hechos básicos y razonamiento— pero que fuera significativamente más pequeño y restringido en términos de diversidad y amplitud temática, quizás sería posible que modelos muy pequeños adquirieran la capacidad de generar texto coherente.
Así, el artículo propone el modelo TinyStories, un generador de cuentos cortos generados mediante GPT-3.5 y GPT-4, diseñado para contener únicamente vocabulario que un niño de entre tres y cuatro años podría comprender. Cada historia está compuesta por dos o tres párrafos que siguen una trama simple y un tema consistente. Para garantizar la diversidad del conjunto de datos —uno de los principales desafíos al utilizar modelos generativos para producir datos de entrenamiento—, los autores recopilaron un vocabulario de aproximadamente 1.500 palabras básicas divididas en sustantivos, verbos y adjetivos. En cada generación, se seleccionan aleatoriamente tres palabras (una de cada categoría) que el modelo debe integrar en la historia. Además, se elaboró una lista de posibles características narrativas —como diálogos, giros argumentales, finales negativos o moralejas— de las cuales se elige un subconjunto aleatorio para cada historia, enriqueciendo así la variedad estructural del corpus.
La propuesta central del artículo es demostrar que TinyStories puede emplearse para entrenar y evaluar modelos de lenguaje con menos de diez millones de parámetros, e incluso con arquitecturas de un único bloque transformador, y que dichos modelos son capaces de generar historias fluidas, gramaticalmente correctas, diversas y coherentes. Para verificar esto, los autores entrenan una serie de modelos de arquitectura GPT-Neo con dimensiones de embedding que van desde 64 hasta 1024 y con entre uno y doce bloques transformadores. Los resultados muestran que incluso un modelo de 2,5 millones de parámetros puede generar continuaciones de historias más coherentes que las producidas por GPT-2 XL, un modelo casi mil veces más grande con 1.500 millones de parámetros.
Introducen, asimismo, un nuevo sistema de evaluación denominado GPT-Eval. El procedimiento consiste en proporcionar al modelo evaluado el inicio de una historia, generar una continuación, y luego solicitar a GPT-4 que califique dicha continuación en múltiples dimensiones: gramática, creatividad, consistencia con el inicio y coherencia de la trama. Este enfoque multidimensional permite obtener una visión más matizada de las capacidades del modelo y no se limita a medir una única métrica de rendimiento.
Los experimentos concluyen, en primer lugar, que la capacidad gramatical emerge antes que otras habilidades y puede ser dominada por modelos relativamente pequeños, mientras que la consistencia narrativa y la creatividad requieren mayor capacidad. En segundo lugar, la dimensión del embedding resulta más determinante para el conocimiento factual, mientras que el número de capas (la profundidad) es más crucial para el seguimiento de dependencias a largo plazo y la coherencia contextual. En tercer lugar, los modelos de una sola capa muestran dificultades notables para seguir instrucciones, lo que sugiere que la atención global es especialmente importante para esa capacidad.
Los autores también presentan una variante llamada TinyStories-Instruct, en la que cada historia va precedida de un conjunto de instrucciones que puede incluir palabras específicas a incorporar, una oración que debe aparecer en el texto, características narrativas y un resumen argumental. Esta variante permite evaluar la capacidad de seguimiento de instrucciones de los modelos y demuestra que incluso modelos de tamaño reducido son capaces de generalizar a combinaciones de instrucciones que no han visto durante el entrenamiento.
Finalmente, el artículo aporta evidencia de que los modelos entrenados en TinyStories exhiben leyes de escalado similares a las observadas en modelos de lenguaje grandes, mostrando una dependencia polinómica entre el rendimiento y los recursos computacionales empleados en el entrenamiento.
El artículo completo puede leerse desde este enlace.

























