14/1/25

Aplicación de los transformers al estudio de la bioquímica evolutiva

 


Este post no tiene que ver con el lenguaje y, menos, con la literatura digital. ¿Por qué lo publico,  entonces?

Es bien sabido que los grandes modelos de lenguaje, conocidos por su acrónimo en inglés, LMM, permiten generar texto en lenguaje natural que no existía previamente. Es decir, las redes neuronales que están en el corazón de un LMM no funcionan extrayendo textos de una base de datos conocida para responder a alguna pregunta de un usuario con una frase ya existente en algún sitio, sino que generan texto nuevo en base a las relaciones y pesos matemáticos establecidos entre los millones de nodos que componen la red neuronal. Ya hemos visto en numerosas entradas anteriores de Biblumliteraria, cómo la creación de texto es siempre muy correcta en lo gramatical y sintáctico, simulando de manera creíble el lenguaje humano real, aunque en muchas ocasiones carezca de creatividad e interés literario, algo que ocurre también con muchísimos humanos.

Los LMM se basan en redes neuronales conocidas como transformers. Resumiendo muchísimo, las frases que, como entrenamiento, se le suministran al modelo se "trocean" en partes llamadas tokens (que, en la mayoría de los casos, pero no siempre, coinciden con una palabra particular). Tras alimentar el modelo con miles de millones de estas frases (extraídas del vasto corpus digital existente), un proceso matemático establece las relaciones probabilísticas entre dichos tokens o conjunto de tokens, teniendo en cuenta no sólo la pregunta original sino las preguntas-respuestas que haya habido en el transcurso de la conversación para mantener la coherencia a lo largo de la misma

Como se ha citado, las frases así generadas, que pueden ser muy elaboradas, son correctas en el lenguaje natural del que se trate. Ahora bien, como también hemos visto en entradas anteriores de este blog, que sean correctas, incluso literarias o elevadas, no significa que sean reales y, en ocasiones, se generan respuestas falsas totalmente verosímiles. Véanse, por ejemplo, las que se dan en este enlace.

Pues bien, ¿Qué pasaría si usásemos la misma técnica de transformers en el campo de la bioquímica , pero haciendo que los tokens no fuese palabras o signos lingüísticos, sino conjuntos de la estructura de las proteínas?

Las redes neuronales, por mucho que se empeñen los titulares de marketing, no son inteligentes y no piensan. Lo único que hacen es generar millones y millones de relaciones de probabilidad entre tokens que, para el ordenador, son conjuntos de ceros y unos. A la red, le da igual qué signifique el token. A la matemática que gobierna el proceso le da igual si ese token representa una palabra, un color, un sonido o una estructura proteínica. Por ello al igual que en su uso en lenguaje natural, ejecutará su proceso y propondrá una sucesión de salida que será la concatenación de esos tokens, en este caso de esos bloques de las proteínas. Esta salida, esta respuesta al problema, será, como ocurría con un texto, verosímil y posible, correcta estructuralmente.

La empresa EvolutionaryScale ha creado un modelo neuronal de este tipo, denominado ESM3 (por Evolutionary Scale Model 3).

En este caso, el modelo se ha entrenado no con un corpus textual sino con un corpus bioquímico compuesto por 3150 millones de secuencias de proteínas, 236 millones de estructuras y 539 millones de proteínas con sus funciones asociadas. De este ingente volumen de datos, se han establecido 771.000 millones de tokens. 

Este modelo permite estudiar la secuencia, estructura tridimensional y función de cualquier combinación. Nótese que se obvian los aminoácidos y que se comienza en bloques más elevados. Esto es científicamente relevante porque la función que una proteína llega a desarrollar depende, por supuesto, de los aminoácidos que componen la proteína pero, sobre todo, de las estructura geométrica, de los pliegues que forman esos aminoácidos al unirse, y del orden, de la secuencia, en que se unen. Al respecto hay que citar, los recientes éxitos de AlphaFold, la red neuronal desarrollada por Google DeepMind, capaz de estudiar dichos plegamientos con una precisión y rapidez no alcanzable por métodos manuales. 

ESM3 ha permitido realizar una simulación acelerada de la evolución de las proteínas a lo largo de millones de años. Uno de los resultados más relevantes es que ESM3 ha "descubierto" una nueva proteína fluorescente en el color verde de la familia GFP (por Green Fluorescent Protein), que no existe en la naturaleza y que es en al menos un 50% diferente a otras proteínas fluorescentes como las que se encuentran en algunas medusas (el descubrimiento de las GFP mereció el Nobel de Química del 2008). Esta nueva GFP representa la evolución de unos 500 millones de años si la naturaleza hubiera seguido por esa potencial rama de desarrollo o tiempo del futuro si es que la biología sigue este camino a partir de ahora.

La nueva GFP no es una pequeña variación de las existentes en la naturaleza. Es tan distinta que se puede considerar totalmente nueva. Tan diferente como pueden resultar los animales de hace 500 millones de años y los de ahora.

Las posibilidades son enormes. Podremos simular evoluciones futuras en poco tiempo y, quizá, descubrir proteínas que ni existen ahora ni existirán en mucho tiempo dejados al azar de la evolución natural, y que sean beneficiosas para la salud o la vida en general.

El artículo científico completo que narra este modelo puede hallarse en este enlace.  

ESM3 está disponible en versión beta para los investigadores, a través de una API.

Así que, aunque este desarrollo no tenga que ver con el lenguaje o la literatura digital, sí podemos decir que tiene relación con los métodos de IA para tratar el lenguaje y que, metafóricamente, produce creaciones literarias en el arte de combinar proteínas. Cuán buenas son estas creaciones nos lo dirá el tiempo que es el crítico más implacable.




0 comentarios :