12/2/25

Deepseek podría no ser tan eficiente

 


Hace pocas fechas dábamos cuenta de DeepSeek, el generador de lenguaje natural que parece ser mucho más eficiente que sus contrincantes europeos o, sobre todo, americanos. En aquel post, se analizaban los elementos técnicos que podía permitir esta mayor eficacia. Rendimiento que suponía mayor velocidad, menor consumo de energía, más facilidad de entrenamiento, mejor velocidad de respuesta y el uso de hardware simple. En definitiva, mucho más barato de entrenar, usar y mantener.

Así, DeepSeek decía haber necesitado sólo 6 millones de dólares para su desarrollo (unas 10 veces menos que sus competidores), precisar sólo de unas 2000 GPU y tener un coste por inferencia órdenes de magnitud menores que otros LLMs.

En la batalla de marketing desatadas entre las Compañías, hace pocos días, la firma SemiAnalysis publicó un informe en que se afirma que DeepSeek ha incurrido, en realidad, en unos gastos de hardware de 1600 millones de dólares y que dispone, para ejecutar programas, de 50000 GPUs de NVIDIA

Según el informe, DeepSeek dispondría de una infraestructura informática con aproximadamente 50.000 GPU Hopper, incluyendo 10.000 H800 y 10.000 H100. Todas estas unidades estarían distribuidas en múltiples ubicaciones y servirían para entrenar el LLM, para investigación y desarrollo y para ejecutar modelos financieros que son la misión original y principal de la empresa. La inversión total de capital de la Sociedad en servidores ronda los 1.600 millones de dólares, con un gasto estimado de 944 millones en costes operativos.

Aunque las cifras globales parecen ser ciertas ya que están basadas en el balance societario, no queda claro qué proporción del gasto se dedica, en realidad, al modelo de lenguaje.

Claro está, de ser cierto que esa proporción es mayor que la manifestada con anterioridad, la supuesta fantástica eficacia de DeepSeek no sería tal. 

Habrá que ser prudentes y dejar que pase la marejada de marketing e intereses financieros. 

De momento, tenemos el modelo DeepSeek para experimentar con él.



9/2/25

Indicator

 


Indicator, de Jean-Pierre Balpe, es un vídeo narrativo en el que sobre un fondo fijo de una imagen en sepias, se van moviendo los textos de la historia. Estos, cambian de fuente, se expanden y apelotonan, pero siempre de manera lenta y poco dada a sorpresas, algo que favorece la lectura.

Más que una narración lineal, son saltos entre páginas de un hipotético libro que reflexiona sobre las ondas, sean estas físicas o sentimentales.

Puede verse en este enlace.







7/2/25

Halfling Dale

 


Halfling Dale, de Wysiwyg Wizards, es una historia de ficción interactiva especialmente diseñada para dispositivos móviles.

Se trata de una aventura en que el lector debe enfrentarse a las consecuencias de las acciones ilegales de su hermano y para ello debe participar en la vida de Dale.

La mecánica es la habitual. Se presentan varios párrafos de la historia y, a continuación, se dan opciones. En función de las elegidas por el lector, la narración se desarrolla de diferentes maneras. Hay 28 finales diferentes posibles y 10 tramas diferentes.

Esta aplicación tiene unos gráficos agradables, naifs, casi infantiles, pero apropiados para la narración.

Más información en este enlace.







6/2/25

Poem App Generator

 


Poem App Generator es un pequeño generador de poemas que crea versos en base a una temática que se elige desde una caja de opciones y la longitud deseada de la poesía (hasta 16 versos). Funciona en inglés y básicamente crea pareados.

Algunos ejemplos de lo obtenido:


My heart beats fast, my soul feels alive,

In your eyes, my love, I thrive,

With you by my side, I feel complete,

Together our love, will forever repeat.

Your touch ignites, a burning fire,

Melting my fears, and soothing my desire,

In your arms, I find my peaceful nest,

With you, my love, I am forever blessed.


--o0o--


A true friend is a treasure, a gem so rare,

A bond of trust, and a love that's fair,

Through thick and thin, they'll stand by your side,

A friend like that, is a treasure to abide.

They'll laugh with you, and cry with you,

They'll be your rock, and see you through,

A true friend is a gift, a treasure so true,

A friendship like that, is a bond that shines through.

They'll be your partner, in every sense,

A friend like that, is a true defense,

They'll help you grow, and help you thrive,

A friendship like that, is a treasure to survive.

A true friend is a blessing, a gift from above,

A treasure to cherish, and a love that's strong and true,

A friendship like that, is a bond that will forever shine,

A treasure to hold, and a love that's truly divine.



Puede utilizarse desde este enlace.


4/2/25

Siempre pueda verte ante los ojos míos




... pues agora el cielo
con inmortales pies pisas y mides,                 
y su mudanza ves, estando queda,
¿por qué de mí te olvidas y no pides
que se apresure el tiempo en que este velo
rompa del cuerpo, y verme libre pueda,
                          y en la tercera rueda,                            
contigo mano a mano,
busquemos otro llano,
busquemos otros montes y otros ríos,
otros valles floridos y sombríos,
do descansar y siempre pueda verte                 
ante los ojos míos,
sin miedo y sobresalto de perderte?


Garcilaso de la Vega




Hoy




Hoy.

Ojalá los calendarios no tuvieran esta fecha. Ojala, vientos amigos hubiesen arrancado todas las hojas de todos los calendarios de todos los años de tal día como hoy. Ojala nunca hubiese ocurrido. Los malos duendes de la melancolía, la desesperanza y el dolor rebuscan hoy por los cajones de mi memoria y te evocan. El universo te recuerda. El cosmos llora. Yo lloro. Y las artes de toda la historia confluyen para honrarte cuando llega este día.

Los timbales y las trompetas de Purcell fueron musicados para ti, para ser escuchados en tu honor.

Neruda escribió La noche está estrellada y tú no estás conmigo para que yo lo leyera esta noche.

El destino sabía que el Lacrimosa de Mozart fue creado para nosotros.

El grito final de muerte helada de La Boheme era por tí.

y con Machado he aprendido que habría de hacerse Su voluntad contra la mía. Siempre fue así, siempre es así.

La barca rosa de Gabriela Mistral era la tuya, tierna compañera.

Dante ya sabía que serás la Beatriz que me guíe y me salve cuando arribe mi turno.

Te buscaré más allá de las tinieblas, mi dulce Eurídice. Y no miraré atrás.

También yo, como León Osorio, cien veces quise interrogar al cielo pero ante mi desventura el cielo calla.

He sentido el manotazo duro, el golpe helado, el hachazo invisible y homicida que Hernández anunció.

Con Quevedo espero que seas polvo enamorado. Yo lo soy. Siempre lo seré.

Me aferro a los versos de Dylan Thomas: aunque los amantes se pierdan quedará el amor y la muerte no tendrá señorío. Eso sí te lo garantizo.

Y Martí i Pol sabía ya que no tornarás pero que perduras en mí de tal manera que me cuesta imaginarte ausente para siempre.


Sólo anhelo, con Manrique, a que mi río desemboque en tu mismo mar y nuestras aguas se confundan otra vez.



1/2/25

The Book of the Duchess - Hypertext edition of the four witness version

 


The Book of the Duchess - Hypertext edition es una comparación digital e hipertextual de cuatro versiones de El libro de la Duquesa de Geoffrey Chaucer. En concreto, las 4 versiones comparadas son MS Tanner 346: A Facsimile by Pamela Robinson; Bodleian Library MS Fairfax 16 by John Norton Smith; MS Bodley 638: A Facsimile by Pamela Robinson y Thynne 1532 Edition on ProQuest.

Su objetivo principal es analizar las diferencias textuales entre dichos documentos. Todas las grafías son las que aparecen en el manuscrito, con las numeraciones encabezadas sólo en la edición de Thynne por ser la más larga. Existen llamadas hipertextuales que llevan a otros documentos, enciclopedias (como la Británica) o a diccionarios que esclarecen el significado de palabras o frases. 

El libro de la Duquesa es un poema de visión onírica que cuenta la historia de un hombre que se queda dormido y sueña con una cacería, donde se encuentra con un caballero apenado que le cuenta la historia de su amor perdido.  

Puede accederse desde este enlace.







30/1/25

X Simposio de la ASETEL

 


Hoy y mañana se celebra, en Cádiz, el X Simposio de la Asociación Española de Teoría de la Literatura. Tendrá lugar en la Facultad de Filosofía y Letras de la Universidad de Cádiz y será dirigido por la doctora María Isabel Morales Sánchez. En esta edición, expertos de España y Portugal analizaran, especialmente,  las transformaciones experimentadas por la literatura en sus modos de entender y contar la realidad, en un mundo técnico donde la realidad textual ha expandido su espacio a otras posibilidades, marcadas por la hibridez y la interdiscursividad. 

El programa completo de ambas jornadas puede leerse en este enlace.

Más información en este otro enlace.



E-reader Kobo Clara Colour

 

El lector de libros electrónicos Kobo Clara Colour presenta las siguientes características:

* Tamaño de pantalla de 6"
* Pantalla E Ink Kaleido™ 3 con FastGLR y modo oscuro
* 1448 x 1072 píxeles
* Resolución en blanco y negro de 300 ppp
* Resolución en color de150 ppp
* Color mediante capas de filtros
* Almacenamiento RAM de 16 GB
* CPU Dual 2,0 GHz
* Dispone de WiFi 802.11 ac/b/g/n, Bluetooth® y USB-C
* Batería de 1500 mAh,
* Resistencia al agua IPX8
* Iluminación frontal
* iType: 13 fuentes diferentes y más de 50 estilos de fuente
* Dimensiones de 112 x 160 x 9,2 mm
* Peso de 174
* Capaz de leer documentos en EPUB, EPUB3, FlePub, PDF, MOBI, JPEG, GIF, PNG, BMP, TIFF, TXT, HTML, RTF, CBZ, CBR), así como verbalizar audiolibros Kobo.



28/1/25

DeepSeek, rendimiento excelente sin grandes recursos

 

Estos días, la prensa está llena de noticias sobre un nuevo LLM, un gran modelo de lenguaje, que viene de China y que se denomina DeepSeek. El revuelo viene dado por cómo su existencia ha afectado brutalmente a las cotizaciones bursátiles de las grandes tecnológicas (NVIDIA, por ejemplo, ha disminuido su capitalización en seiscientos mil millones de dólares) y por cómo cuestiona los grandes planes de desarrollo en IA que EEUU acababa de proponer, el llamado Stargate.

La empresa DeepSeek, cuyo LLM recibe el mismo nombre, tiene sus raíces en una empresa de inversiones fundada en ZhanJiang, en el 2016, y llamada High-Flyer. Su fundador fue un hombre interesado en la IA, Lian Wenfeng. En el 2023, esta financiera puso en marcha un laboratorio de desarrollo de aplicaciones en inteligencia artificial y pronto este laboratorio pasó a ser una empresa independiente llamada DeepSeek. Para finales de 2023, DeepSeek puso ya a disposición del público, en código abierto, su primer modelo LLM llamado Deepseek Coder. A mediados del 2024 publicó su modelo V2 y en los últimos meses los modelos V3 y R1, siendo V3 la versión gran público y R1 la más avanzada para usos empresariales.

Y aquí llegamos al punto disruptivo. Estas dos últimas versiones son equiparables en rendimiento a los grandes modelos establecidos como ChatGPT, OpenAI o1, Llama,  Claude o cualquier otro desarrollado en los últimos años por las grandes compañías de IA.

El origen de la convulsión que estos desarrollos han causado en la bolsa y en los planes estratégicos está basado en seis aspectos fundamentales:

- La rapidez de desarrollo de sus redes LLM. En un año han llegado a crear modelos que a otros les ha llevado décadas.
- Es de código abierto, lo que implica que millones de desarrolladores podrán ahora aumentar sus capacidades en tiempos muy breves; así como que se desmonta el secretismo y el misterio que las grandes empresas daban a los LLM.
- Un coste de creación y de operación minúsculo en comparación con lo gastado para los otros modelos. Así, se ha informado que R1 no ha costado más de 6 millones de dólares cuando sus competidores han necesitado entre 60 y 100 millones. Una muestra de que es posible hacer grandes avances en LLMs sin grandes inversiones. Si esto es así, la recientemente anunciada inversión de medio billón de dólares en desarrollo de IA parece exorbitada, sobredimensionada e innecesaria. Las empresas que desarrollan hardware muy especializado pueden poner en cuarentena sus enormes inversiones por no ser necesarias.
- Hasta ahora existía la idea de que para desarrollar nuevos modelos de IA era necesario un hardware (microprocesadores, etc.) muy avanzado y costoso de fabricar. Pero, DeepSeek, sujeto a las restricciones de componentes occidentales impuestas a China, ha demostrado que no es así.
- DeepSeek "explica" cómo ha llegado a una respuesta dada. Los LLMs actuales se caracterizan porque no se sabe de dónde sale la respuesta, ni siquiera si es correcta o es una alucinación. DeepSeek indica que puede contestar y, además, razonar la respuesta. Recuerda, en este sentido, a los antiguos sistemas expertos.
- El uso de DeepSeek es gratis (aunque hay que registrarse) para los particulares y tiene un costo mínimo para las empresas.

El resultado de todo esto es la grandísima caída en bolsa de todas las grandes empresas occidentales ligadas a la IA. ¿Para que invertir en ellas si se puede hacer lo mismo sin tanto aspaviento y con poco dinero?

Dicho esto, siempre hay que llamar a la prudencia. En este momento, y como siempre, estamos inmersos en los mensajes de marketing de unos y otros, siempre interesados y alejados de la verdad. Ciertamente, DeepSeek es un buen LLM pero queda aún mucho para demostrar que es la panacea. Al cabo, movimientos similares se han visto en el pasado en otros campos de la informática y no se han impuesto. Por ejemplo, hace 30 años, Linux, un SO de código abierto con amplias posibilidades comenzó con grandes expectativas para finalmente quedar recluido a un nicho muy pequeño respecto a Windows.

Han empezado ya también, en cosa de horas, las "contramedidas" para crear opinión. Anuncios de que DeepSeek había almacenado decenas de miles de chips NVIDIA para poder correr su LLM y que no es cierto que no se precise hardware avanzado, advertencias de censura interna en la LLM (al parecer, no trata los temas sensibles al gobierno chino), problemas con la seguridad y confidencialidad de los datos que acaban en servidores chinos sin estar sujetos a las leyes occidentales de tratamiento de datos e, incluso, la empresa ha denunciado un ataque masivo cibernético a sus servidores.

Calculo que, en unas cuantas semanas o en pocos meses, las aguas volverán a su cauce, las acciones recobrarán sus valores y la evaluación técnica será más técnica que "marketiniana". Veremos.

Ahora bien, ¿por qué DeepSeek está ofreciendo estos rendimientos, equiparables a los demás LLM, a bajo coste?

DeepSeek es una red neuronal del tipo transformer (como lo son las redes de sus competidores) pero incluye nuevas ideas para mejorar la eficacia y rebajar el coste. Son varias las técnicas que utiliza para lograrlo.

En primer lugar, en vez de recurrir a un entrenamiento desde cero, DeepSeek utiliza las respuestas de los otros modelos existentes. Es decir, sus datos de entrenamiento parten de un entrenamiento hecho por otros. Podría pensarse que es una práctica abusiva si usan resultados de modelos que no fueran de la propia DeepSeeek y ciertamente lo sería, pero no más abusiva de cuando los modelos cerrados recogieron todas la información de periódicos, libros y blogs existente en Internet. Nadie ha pagado nada por usar lo que otros crearon.

Esta técnica, llamada de "destilación", significa que los modelos LLM no aprenden sólo de datos en bruto sino que pueden aprender de otros modelos que ya han aprendido. En cierto modo, es similar al aprendizaje humano. Los niños no aprenden todo de observar, no reinventan las matemáticas, no hacen arqueología para descubrir la historia. Aprenden de otras personas, de los profesores, de una cadena de seres humanos que acumularon conocimiento aprendiendo los unos de los otros, destilando el conocimiento de los ancestros para depurarlo, mejorarlo y transmitirlo a las nuevas generaciones. Así, el coste y tiempo de entrenamiento disminuyen.

Asimismo, la longitud del registro para tener en cuenta el contexto pasa a 128.000 tokens, el doble de lo habitual en otros modelos. Por ello, a medida que la conversación avanza, puede mantenerse más tiempo la coherencia con lo ya dicho.  

Igualmente, los desarrolladores citan el Multi-Head Latent Attention (MLA) que permite discernir entre matices del lenguaje. Por así decirlo, prestan más atención a los tokens que son más relevantes en información para almacenar la información y crear nuevo texto. Un ejemplo sería considerar la frase "El niño jugó con un balón". Los tokens "el" y "un" no aportan nada y podemos descartarlos a la hora de generar nuevo texto. Los modelos transformer convencionales suelen adoptar el algoritmo de atención "multicabezal" (MHA), pero durante la generación del texto, la memoria se convertirá en el cuello de botella que limitará la eficiencia de la inferencia. El nuevo sistema MLA permite reducir significativamente el tamaño de este caché de memoria. 

La otra técnica importante es que DeepSeek "trocea" el conocimiento en subconjuntos especializados que se denominan "expertos" o, en su terminología original MoE, Mixture of Experts.

Sabido es que los LLM usan redes neuronales con cientos de cientos de miles de millones de tokens que se interconectan probabilísticamente entre sí. Procesar información a través de cientos de miles de millones de nodos requiere un hardware potentísimo, mucho tiempo y un consumo de energía a raudales. Obviamente, el coste de operación es alto y complicado. 

DeepSeek reparte estos cientos de miles de millones de nodos en subgrupos y, según sea la pregunta, utiliza uno u otro sin necesidad de utilizar siempre todo el conjunto a la vez. Por ejemplo, no necesitamos recurrir a toda la red neuronal entrenada con, por ejemplo, datos de biología molecular  si la pregunta habla de carpintería, de la misma forma que un humano se dirigiría a un experto y no lanzaría su pregunta al mundo entero. Así, las respuestas son más rápidas y el consumo de energía se reduce mucho. El coste de operación es, entonces, bajo.

También se ha informado que se utilizan multitokens, es decir crear nuevos tokens uniendo otros existentes. Esto reduce el número de parámetros a usar si bien también reduce la precisión de la respuesta. Por así, decirlo es como si para crear una frase sólo pudiéramos elegir entre otras frases y no palabra a palabra. Se combina con un sistema Multi-Token Prediction (MTP).

En concreto, de los aproximadamente 671.000 millones de tokens globales de que dispone la red neuronal V3, las respuestas se obtienen a partir de subconjuntos de entre 35 y 40 mil millones de parámetros activados simultáneamente. Es evidente que las necesidades de CPU, de hardware especializado, de memoria y de consumo eléctrico han de bajar considerablemente.  DeepSeek podría operar con GPUs ya existentes para videojuegos avanzados. Otra vez, hay que poner todo esto en perspectiva, ya que no hay laptops o workstations con la capacidad necesaria. En el artículo técnico de DeepSeek se dice que han usado 2048 GPUs de NVIDIA. Pero un paso en la buena dirección es claro que lo es.

Un reciente artículo técnico publicado por los desarrolladores y que cubre ampliamente los aspectos técnicos puede leerse en este enlace. Para la versión V2, este artículo técnico resulta esclarecedor. 

Para comenzar a usar DeepSeek, llámese a este enlace.

En Github, los desarrolladores pueden encontrar código en este otro enlace.





25/1/25

Literatura e Tecnologia: Futuros (im)possíveis

 


Desde el 23 al 27 del próximo mes de junio se celebrará el Simposio sobre literatura y tecnología, con el título de Literatura e Tecnologia: Futuros (im)possíveis. Tendrá lugar en Manaos.

El simposio llega a su cuarta edición y pretende reunir estudios sobre las relaciones que pueden establecerse entre los campos de la literatura y la tecnología, particularmente la digital. Campos como la literatura electrónica, la literatura en red, la aplicación de la IA a la escritura, la catalogación de corpa, etc. tienen cabida en los debates.

En este momento está abierto el plazo de presentación de propuestas para su evaluación por el comité del simposio.

Más información en este enlace.