Estos días, la prensa está llena de noticias sobre un nuevo LLM, un gran modelo de lenguaje, que viene de China y que se denomina DeepSeek. El revuelo viene dado por cómo su existencia ha afectado brutalmente a las cotizaciones bursátiles de las grandes tecnológicas (NVIDIA, por ejemplo, ha disminuido su capitalización en seiscientos mil millones de dólares) y por cómo cuestiona los grandes planes de desarrollo en IA que EEUU acababa de proponer, el llamado Stargate.
La empresa DeepSeek, cuyo LLM recibe el mismo nombre, tiene sus raíces en una empresa de inversiones fundada en ZhanJiang, en el 2016, y llamada High-Flyer. Su fundador fue un hombre interesado en la IA, Lian Wenfeng. En el 2023, esta financiera puso en marcha un laboratorio de desarrollo de aplicaciones en inteligencia artificial y pronto este laboratorio pasó a ser una empresa independiente llamada DeepSeek. Para finales de 2023, DeepSeek puso ya a disposición del público, en código abierto, su primer modelo LLM llamado Deepseek Coder. A mediados del 2024 publicó su modelo V2 y en los últimos meses los modelos V3 y R1, siendo V3 la versión gran público y R1 la más avanzada para usos empresariales.
Y aquí llegamos al punto disruptivo. Estas dos últimas versiones son equiparables en rendimiento a los grandes modelos establecidos como ChatGPT, OpenAI o1, Llama, Claude o cualquier otro desarrollado en los últimos años por las grandes compañías de IA.
El origen de la convulsión que estos desarrollos han causado en la bolsa y en los planes estratégicos está basado en seis aspectos fundamentales:
- La rapidez de desarrollo de sus redes LLM. En un año han llegado a crear modelos que a otros les ha llevado décadas.
- Es de código abierto, lo que implica que millones de desarrolladores podrán ahora aumentar sus capacidades en tiempos muy breves; así como que se desmonta el secretismo y el misterio que las grandes empresas daban a los LLM.
- Un coste de creación y de operación minúsculo en comparación con lo gastado para los otros modelos. Así, se ha informado que R1 no ha costado más de 6 millones de dólares cuando sus competidores han necesitado entre 60 y 100 millones. Una muestra de que es posible hacer grandes avances en LLMs sin grandes inversiones. Si esto es así, la recientemente anunciada inversión de medio billón de dólares en desarrollo de IA parece exorbitada, sobredimensionada e innecesaria. Las empresas que desarrollan hardware muy especializado pueden poner en cuarentena sus enormes inversiones por no ser necesarias.
- Hasta ahora existía la idea de que para desarrollar nuevos modelos de IA era necesario un hardware (microprocesadores, etc.) muy avanzado y costoso de fabricar. Pero, DeepSeek, sujeto a las restricciones de componentes occidentales impuestas a China, ha demostrado que no es así.
- DeepSeek "explica" cómo ha llegado a una respuesta dada. Los LLMs actuales se caracterizan porque no se sabe de dónde sale la respuesta, ni siquiera si es correcta o es una alucinación. DeepSeek indica que puede contestar y, además, razonar la respuesta.
- El uso de DeepSeek es gratis (aunque hay que registrarse) para los particulares y tiene un costo mínimo para las empresas.
El resultado de todo esto es la grandísima caída en bolsa de todas las grandes empresas occidentales ligadas a la IA. ¿Para que invertir en ellas si se puede hacer lo mismo sin tanto aspaviento y con poco dinero?
Dicho esto, siempre hay que llamar a la prudencia. En este momento, y como siempre, estamos inmersos en los mensajes de marketing de unos y otros, siempre interesados y alejados de la verdad. Ciertamente, DeepSeek es un buen LLM pero queda aún mucho para demostrar que es la panacea. Al cabo, movimientos similares se han visto en el pasado en otros campos de la informática y no se han impuesto. Por ejemplo, hace 30 años, Linux, un SO de código abierto con amplias posibilidades comenzó con grandes expectativas para finalmente quedar recluido a un nicho muy pequeño respecto a Windows.
Han empezado ya también, en cosa de horas, las "contramedidas" para crear opinión. Anuncios de que DeepSeek había almacenado decenas de miles de chips NVIDIA para poder correr su LLM y que no es cierto que no se precise hardware avanzado, advertencias de censura interna en la LLM (al parecer, no trata los temas sensibles al gobierno chino), problemas con la seguridad y confidencialidad de los datos que acaban en servidores chinos sin estar sujetos a las leyes occidentales de tratamiento de datos e, incluso, la empresa ha denunciado un ataque masivo cibernético a sus servidores.
Calculo que, en unas cuantas semanas o en pocos meses, las aguas volverán a su cauce, las acciones recobrarán sus valores y la evaluación técnica será más técnica que "marketiniana". Veremos.
Ahora bien, ¿por qué DeepSeek está ofreciendo estos rendimientos, equiparables a los demás LLM, a bajo coste?
DeepSeek es una red neuronal del tipo transformer (como lo son las redes de sus competidores) pero incluye nuevas ideas para mejorar la eficacia y rebajar el coste. Son varias las técnicas que utiliza para lograrlo.
En primer lugar, en vez de recurrir a un entrenamiento desde cero, DeepSeek utiliza las respuestas de los otros modelos existentes. Es decir, sus datos de entrenamiento parten de un entrenamiento hecho por otros. Podría pensarse que es una práctica abusiva si usan resultados de modelos que no fueran de la propia DeepSeeek y ciertamente lo sería, pero no más abusiva de cuando los modelos cerrados recogieron todas la información de periódicos, libros y blogs existente en Internet. Nadie ha pagado nada por usar lo que otros crearon.
Esta técnica, llamada de "destilación", significa que los modelos LLM no aprenden sólo de datos en bruto sino que pueden aprender de otros modelos que ya han aprendido. En cierto modo, es similar al aprendizaje humano. Los niños no aprenden todo de observar, no reinventan las matemáticas, no hacen arqueología para descubrir la historia. Aprenden de otras personas, de los profesores, de una cadena de seres humanos que acumularon conocimiento aprendiendo los unos de los otros, destilando el conocimiento de los ancestros para depurarlo, mejorarlo y transmitirlo a las nuevas generaciones. Así, el coste y tiempo de entrenamiento disminuyen.
Asimismo, la longitud del registro para tener en cuenta el contexto pasa a 128.000 tokens, el doble de lo habitual en otros modelos. Por ello, a medida que la conversación avanza, puede mantenerse más tiempo la coherencia con lo ya dicho.
Igualmente, los desarrolladores citan el Multi-Head Latent Attention (MLA) que permite discernir entre matices del lenguaje. Por así decirlo, prestan más atención a los tokens que son más relevantes en información para almacenar la información y crear nuevo texto. Un ejemplo sería considerar la frase "El niño jugó con un balón". Los tokens "el" y "un" no aportan nada y podemos descartarlos a la hora de generar nuevo texto. Los modelos transformer convencionales suelen adoptar el algoritmo de atención "multicabezal" (MHA), pero durante la generación del texto, la memoria se convertirá en el cuello de botella que limitará la eficiencia de la inferencia. El nuevo sistema MLA permite reducir significativamente el tamaño de este caché de memoria.
La otra técnica importante es que DeepSeek "trocea" el conocimiento en subconjuntos especializados que se denominan "expertos" o, en su terminología original MoE, Mixture of Experts.
Sabido es que los LLM usan redes neuronales con cientos de cientos de miles de millones de tokens que se interconectan probabilísticamente entre sí. Procesar información a través de cientos de miles de millones de nodos requiere un hardware potentísimo, mucho tiempo y un consumo de energía a raudales. Obviamente, el coste de operación es alto y complicado.
DeepSeek reparte estos cientos de miles de millones de nodos en subgrupos y, según sea la pregunta, utiliza uno u otro sin necesidad de utilizar siempre todo el conjunto a la vez. Por ejemplo, no necesitamos recurrir a toda la red neuronal entrenada con, por ejemplo, datos de biología molecular si la pregunta habla de carpintería, de la misma forma que un humano se dirigiría a un experto y no lanzaría su pregunta al mundo entero. Así, las respuestas son más rápidas y el consumo de energía se reduce mucho. El coste de operación es, entonces, bajo.
También se ha informado que se utilizan multitokens, es decir crear nuevos tokens uniendo otros existentes. Esto reduce el número de parámetros a usar si bien también reduce la precisión de la respuesta. Por así, decirlo es como si para crear una frase sólo pudiéramos elegir entre otras frases y no palabra a palabra. Se combina con un sistema Multi-Token Prediction (MTP).
En concreto, de los aproximadamente 671.000 millones de tokens globales de que dispone la red neuronal V3, las respuestas se obtienen a partir de subconjuntos de entre 35 y 40 mil millones de parámetros activados simultáneamente. Es evidente que las necesidades de CPU, de hardware especializado, de memoria y de consumo eléctrico han de bajar considerablemente. DeepSeek podría operar con GPUs ya existentes para videojuegos avanzados. Otra vez, hay que poner todo esto en perspectiva, ya que no hay laptops o workstations con la capacidad necesaria. En el artículo técnico de DeepSeek se dice que han usado 2048 GPUs de NVIDIA. Pero un paso en la buena dirección es claro que lo es.
Un reciente artículo técnico publicado por los desarrolladores y que cubre ampliamente los aspectos técnicos puede leerse en este enlace. Para la versión V2, este artículo técnico resulta esclarecedor.
Para comenzar a usar DeepSeek, llámese a este enlace.
En Github, los desarrolladores pueden encontrar código en este otro enlace.
0 comentarios :
Publicar un comentario