31/7/23

Audiolibros e Inteligencia artifical

 


Los audiolibros han tenido un importante auge en los últimos años y su calidad ha aumentado notablemente, especialmente porque los narradores son profesionales humanos capaces, no sólo de leer el texto, sino de dotarlo de sentimiento, dinámica, cadencia, modulación e interés. Nada que ver con esas versiones que utilizan sistemas automáticos de conversión texto a voz.

Esta necesidad de profesionales especializados ha generado, asimismo, un mercado con significativos volúmenes de negocio y de puestos de trabajo.

Sin embargo, ahora, los avances de los generadores de texto, imagen y voz, basados en redes neuronales, permiten vislumbrar que la calidad de la conversión texto a vez será cada vez más similar a la del ser humano. Si el sistema puede "comprender" el contexto de la narración, los sentimientos involucrados y, por otro lado, la simulación del discurso oral es convincente, los audiolibros pueden entrar en una nueva fase que hará cambiar ese mercado.

El que el discurso oral "suene" humano es algo que es técnicamente posible utilizando, por ejemplo, la técnica de los samples que se usa en la composición musical por ordenador con DAWs y librerías. En composición musical, la dinámica se logra con las indicaciones escritas en la propia partitura (tempos, dinámicas, crescendos, ritardandos, rubatos, ritmos, stacattos, calandos, morendos, etc., etc.) que no existen en los textos literarios. Pero es aquí, donde una red neuronal convenientemente programada puede lograr aportar esos metadatas al generador sonoro de las palabras para conseguir una dicción adecuada y sentida.

Por un lado, estos avances técnicos suponen un cambio del modelo de negocio y un riesgo de pérdida de puestos de trabajo (narradores, actores, editores, expertos en mezclas, etc.). Por otro lado, pueden favorecer una explosión en la creación de audiolibros a coste muy bajo y de alta calidad.

También, existen problemas éticos que han de ser abordados legalmente. Si se utilizan samples, estas no son sino grabaciones de voces reales pronunciando la palabra en diferentes contextos, velocidades, intensidades y emociones. Pero estas palabras, constituido ya un corpus sonoro completo del idioma, pueden usarse para cualquier otro uso, más allá de crear audiolibros. Por así decirlo, la voz del orador puede ser mal usada para fines que no fueron los previstos. Es más, puede simularse que es algo dicho por él mismo, de manera fraudulenta ¿Debe entonces tratarse de una licencia en la que los oradores que han sido grabados deben dar su acuerdo para cada caso y cobrar por cada uso? ¿O se vende el conjunto de palabras grabadas de una vez y para siempre? Hasta ahora, muchos de los creadores de programas IA basados en redes neuronales toman toda la información sin consentimiento o contratos. Este hecho es particularmente delicado cuando tratamos de usar voces que corresponden a personas reales.

Podría pensarse que estas voces pueden ser generadas desde cero, creando la forma de onda necesaria. También se pensó en hacerlo así en la composición musical. Los matices son tantos y las dificultades técnicas tan grandes que la solución vía samples - en realidad, pura fuerza bruta - parece más realista. Basta escuchar los muchos conversores texto a voz basados en generación de ondas que suenan mecánicos y robóticos, sin alma.

Cualquiera que sea el caso, el futuro de la IA va a deparar cambios y avances profundos en el audiolibro.




30/7/23

Generative Art Timeline

 


Le Random está proponiendo un portal de arte generativo a lo largo de la historia, que aún está en construcción. Se denomina Generative Art Timeline. Cuando esté finalizado contendrá un importante catálogo de obras de todo el mundo que irán desde, sobre todo, 1950 hasta nuestros días. Esto es lógico, si tenemos en cuenta que la propia definición de arte generativo implica que la obra de arte ha sido diseñado con algún sistema repetitivo o autónomo y, en esto, el ordenador ha sido la herramienta decisiva,

Dispone de un menú buscador para encontrar las obras según diferentes criterios, como autor, lugar, categoría, etc.

En Edge, tiene algunos problemas de bloqueo de pantalla que no ocurren en Chrome. 

Puede verse desde este enlace.







26/7/23

Escrituras inmateriales

 


La próxima semana, concretamente, el día 4 tendrá lugar el evento en línea Escrituras inmateriales que versará particularmente sobre la inteligencia artificial en el campo editorial, sobre todo en lo que se refiere a la corrección de estilo. El ponente será Alberto Ramírez.

Comenzará a las 5 de la tarde hora de México y durará unas 2 horas.

Requiere inscripción, tras la cual se enviará a los participantes un dossier escrito con lo que va a tratarse en la charla.

Para registrarse, puede utilizarse este enlace.



25/7/23

Augmented Shadows

 


Joon Moon es un artista coreano que crea espacios virtuales 3D con sombras recreadas algorítmicamente, sombras aumentadas, de modo que las que debieran ser nuestras sombras naturales en dos dimensiones, se convierten en sombras animadas en 3D.

La instalación Chasing Stars in Shadow es especialmente bella y sugerente. Se trata de una historia sobre niños que están hechos de sombra. El mecanismo óptico consigue que el espectador vea estas sombras, estos niños, en 3D, logrando una historia inmersiva y muy sugerente. No sólo hay niños sino peces y agua en el suelo. Además, es una aplicación interactiva porque la sombras se mueven y la historia avanza en función de los movimientos y reacciones del espectador. La proyección se realiza dentro de un cubo  de 8 x 8 x 4.2 metros.

Muy hermoso.




21/7/23

Movie Plot Generator

 


Movie Plot Generator es un programa que presenta aleatoriamente una serie de argumentos para hacer guiones de películas, de manera breve y sucinta. Ofrece, asimismo, una sugerencia de título de dicha película. El texto se autogenera programáticamente.

Produce resultados en inglés.

Por ejemplo, véase aquí un resultado de correr el programa:

Movie Title: "Tomorrow's Verse"

"Tomorrow’s Verse" is an alluring musical drama set in the ever-buzzing city of New York. Maggie, a talented yet undiscovered singer-songwriter, works part-time as a waitress in a local cafe, performing her original songs on a worn-out guitar to the evening's patrons. Her life takes a stunning turn when she catches the attention of Thomas, a legendary but mysterious folk singer who disappeared from the public eye years ago. As Thomas takes Maggie under his wing, they both navigate their histories, battles, dreams, and the volatile world of music while making an unexpected comeback. "Tomorrow's Verse" is a rhythmically captivating tale of music, second chances, friendship, and discovery, a haunting melody that inspires and challenges the soul.



Puede usarse desde este enlace.


20/7/23

LLaMA2

 


En Marzo, hablábamos de LLaMa, una red neuronal de generación de lenguaje natural que podía funcionar en ordenadores pequeños y requería muchos menos recursos que los grandes actores, Bard o ChatGPT.

Meta acaba de presentar LlaMa2, la evolución de este modelo lingüístico de uso gratuito. No se ha publicado cómo se ha entrenado a la red neuronal ni el tipo de datos utilizados pero parece que el volumen de datos es un 40% más grande que en la primera versión de LlaMa. Su potencia es ciertamente mucho menor que la de los grandes antes citados pero al ser de código abierto, es posible su mejora y rápido entrenamiento por multitud de desarrolladores independientes.

Para descargar LlaMa2, accédase a este enlace.




2222 Notacion una poesía del futuro

 


2222 Notacion una poesía del futuro, es un poema digital programado en Javascript que muestra una serie de versos `reprogramados, de manera aleatoria sobre la pantalla. Hay varias opciones y la pantalla es minimalista con un único color de fondo y el texto sobre él sin 

Los textos están alterados fonéticamente respecto al deletreo correcto.

Aunque es simple, el código javascript está muy bien estructurado y es claro y asequible.

Puede verse en este enlace.




19/7/23

Codex Dresdensis

 


El Codex Dresdensis, o Códice de Dresde, es un libro de la civilización maya que data de finales del siglo XI o principios del XII. Estiman los expertos que es una copia, quizá ligeramente modificada, de un original anterior del siglo VII.

Contiene 39 largas hojas, escritas por ambos lados, con una longitud total de 3,56 metros. Originalmente, el manuscrito había sido doblado en forma de acordeón. Recibe su nombre porque, en la actualidad, se exhibe en dos partes, cada una con una longitud de aproximadamente 1,8 metros, en el museo de la Biblioteca del Estado Sajón en Dresde

No se conoce bien cómo este magnífico documento llegó a Viena que es donde se documenta, por primera vez, en el siglo XVIII. Se dice que pudo ser Hernán Cortes quién lo consiguió para regalárselo al rey Carlos I pero no está probado.

Existen sólo cuatro códices mayas considerados auténticos y el de Dresde es el más completo. El soporte es papel amate, corteza de jonote que ha sido amasada y cubierta de una pasta de cal, doblada en pliegues en forma de biombo. Consta de 78 páginas sobre 39 hojas, con una longitud total de 3,56 metros, aunque cuatro de las páginas están vacías. Las imágenes están dibujadas con tinturas vegetales, de color rojo, negro y azul maya. Se estima que está escrito por 6 personas diferentes. En su contenido destaca el alto nivel astronómico de los mayas. Así, contiene tablas astronómicas de gran precisión y equiparables a los cálculos actuales. Es particularmente famoso por su serie lunar y por su descripción de los ciclos venusianos. Además, la serie lunar tiene intervalos que se correlacionan con eclipses.  Incluye, también, almanaques, convenciones astrológicas y fechas importantes.

El códice se divide en diez capítulos:

-  Sección relativa a las deidades, sus fiestas, invocaciones, sacrificios, profecías, etc.  

- Almanaques de la deidad lunar Ix Chel, la diosa de la salud y la enfermedad . Discusión de las enfermedades, curas y peligros en el parto.

- Tablas de Venus con información sobre la aparición del planeta Venus como estrella de la mañana y la estrella de la tarde durante un periodo de 312 años, basada en el ciclo de Venus de 584 días.  

- Tabla de eclipses solares y lunares

- Tabla de multiplicar por el número 78. No se conoce el porqué de la importancia de este número.

- Profecías de k'atun que describe los desastres que pueden ocurrir al final de un k'atun. En el calendario maya, un k'atun es un período de 20 años con un nombre específico, el cual volvía después de 13 ciclos de k'atun, es decir después de 260 años, y el final de ese periodo se asociaba con el riesgo de hambruna, sequía y terremotos. 

- Números de la serpiente con profecías a largo plazo. Se indican eventos en un período de unos 30.000 años.  

- La gran inundación con la representación de un desastre cósmico resultando en la destrucción del mundo por una gran inundación. Equivalente a nuestro Diluvio Universal (hecho que debió ocurrir pues está recogido en todas las culturas).

- Ceremonias de comienzo del año nuevo  

- Almanaque para la agricultura, épocas de lluvia y de siembra. 

El códice ha sido una pieza clave en el descifrado y traducción de los glifos mayas. 

18/7/23

Mahler

 


Para todos los que amamos la música, Mahler es uno de los grandes genios y sus sinfonías aseguran una experiencia emocional sin parangón. 

El portal de la Mahler Fundation es un excelente sitio que recopila todo tipo de informaciones sobre el compositor y, especialmente, muchas de sus partituras manuscritas. Hay apartados dedicados a su biografía, a la de su esposa Alma, una galería de imágenes relacionadas con el músico, libros que tratan sobre Mahler, cronología de su vida, etc. etc. Una enorme cantidad de información que requiere de tiempo para ser apreciada, analizada y disfrutada.

Pero, sin duda, la sección más interesante es la de sus obras con explicaciones de cada composición, guías de audición, partituras, análisis de la orquestación, análisis de cada movimiento compás a compás, etc. 

Particularmente, a mí me ha entusiasmado la información recopilada sobre su inacabada Sinfonía 10. De sus cinco movimientos, sólo completó el primer adagio pero dejó suficiente información y notas sobre los otros cuatro que servirían a Deryck Cooke para reconstituir lo que hubiera podido ser el resultado final. De acuerdo, no la acabó Mahler pero la partitura de Cooke es merecedora de él y de todo elogio. En este enlace, una estupenda versión

Puede accederse desde este enlace.







17/7/23

Napoleón jamás subió Gazteluondo

 

Napoleón jamás subió Gazteluondo (Editorial Intxorta 1937 Kultur Elkartea, 2020), de José Ángel Barrutiabengoa, es un ensayo breve pero muy bien documentado sobre los acontecimientos que tuvieron lugar en Mondragón y alrededores durante la invasión napoleónica. Se trata de una síntesis de toda la documentación recopilada hace tres décadas por un grupo de investigadores, entre los que se encontraba el propio Barrutiabengoa, fruto de la beca José Letona de 1990.  El libro se imprimió en plena pandemia y su presentación hubo de retrasarse hasta este año.

El título se refiere a una empinada cuesta de la villa por la que pasaba el camino real y que tuvo que modificarse, tirando casas y abriendo una nueva puerta en las murallas, para que las caballerías pudieran recorrer la vía con mayor facilidad.

Las vicisitudes comienzan en 1807 cuando Napoleón comienza su estrategia de invadir España de manera sigilosa, trasladando miles de tropas con sus armas a la Península, destituyendo a la monarquía hispánica y colocando en el trono al hermano del Emperador, José.

El libro está trufado de jugosas anécdotas pero, sobre todo, se centra en las penurias económicas que el valle del Alto Deba debió soportar por parte de los ocupantes franceses y las autoridades propias. Ya antes del comienzo de las hostilidades declaradas, fruto del levantamiento de Madrid del 2 de mayo, Mondragón y los pueblos colindantes se ven obligados a alojar, mantener y soportar logísticamente a divisiones francesas, miles de caballos y notables afrancesados de toda índole. Hay que resaltar que, en la época, Mondragón tenía poco más de 2000 habitantes, por lo que la carga a soportar por cada ciudadano era enorme. En 1807, los ayuntamientos pecan de una ingenuidad notable que les hace cumplir con las instrucciones que llegan de San Sebastián y Madrid, pensando que van a ser retribuidos por los trabajos y suministros. Pagos que llegan en cantidades siempre muy insuficientes y que cargan a la población con todo tipo de impuestos, requisitorias o robos. Mondragón era ciudad de paso formal y destino de heridos, con lo que el esfuerzo a soportar era inmenso.

Ciertamente, hubo también hechos de armas en la lucha de los franceses contra los guerrilleros, especialmente las emboscadas a las columnas galas en el alto de Arlabán, pero Mondragón no sufrió estragos militares como prueba el que la mortalidad no aumentó significativamente (Barrutiabengoa aporta las estadísticas al respecto). Lo que sí fue asfixiante fue la pobreza a la que se sometió a la población para aportar recursos alimenticios y dinerarios al ejército francés con demandas incluso alocadas (400 bueyes para tirar de cañones e impedimenta, que no existían).

El autor ofrece también un claro análisis de las trifulcas entre los ayuntamientos de cada villa, cómo unos aportan y otros se escaquean lo más posible, las tiranteces entre pueblos, la difícil posición de los ediles, personajes que cambian de bando según convenga,  actas de las sesiones municipales que se destruyen para evitar que se sepa la actuación de unos u otros y, en definitiva, pinta un fresco de la vida cotidiana y sus miserias en medio de la invasión.

El ensayo contiene numerosos datos de detalle, en lo que se refiere a la comida que se debía dar a la tropa, los salarios, los gastos, los precios. 

Asimismo, es interesante señalar la descripción de la desbandada tras la batalla de Vitoria. Columnas de carruajes huyendo hacia Francia que, en general, fueron apresadas. El libro indica que en tales vehículos se encontraron escondidos cinco millones y medio de duros que, al cambio actual, supondrían unos 100 millones de dólares. ¡Solamente, en lo que se llevaban los que huían!.

El libro se completa con una breve explicación de qué les pasó a los principales personajes de la guerra. Como el autor señala, de los verdaderos héroes, los ciudadanos que soportaron los agravios y los robos, poco se sabe.


16/7/23

Poemas bíblicos redactados por ChatGPT

 


Basta probar ChatGPT durante tres o cuatro horas para darse cuenta de que, aún siendo una herramienta potente y estupenda para lo que ha sido creada - que no es charlar con humanos-, su nivel de imaginación, si es que una máquina puede tener imaginación (de momento), es muy bajito.

Pero lo que no cabe duda es que los seres humanos seguimos teniendo una gran imaginación, especialmente cuando se trata de hacer negocios. 

Terence Noble propone en Amazon un libro que recopila 132 poemas, basados en hechos bíblicos, generados por ChatGPT. Estos poemas han sido formateados ligeramente por el autor pero el 95% de los mismos ha sido generado por la red neuronal.

No se dice qué diría Jesucristo al ver a los mercaderes hacer negocios con sus palabras en el Templo de la IA. 

En inglés.

Más información en este enlace.



14/7/23

E-reader en color

 


Onyx Book ha presentado un nuevo lector digital denominado Tab Mini C E-reader. Su pantalla de 7.8" es algo pequeña para leer con comodidad pero es en color, permite tomar notas, editar y abrir ficheros PDF, así como dibujar sobre la pantalla.

Su tecnología Kaleido permite una resolución de 4086 colores en resolución de 702 x 936  a 150 ppi. Cuando se visualiza contendido en escala de grises, la resolución mejora a 1404 x 1872 pixeles a 300 ppi. Dispone de LEDs perimetrales de color cálido para poder leer en la oscuridad.

El lector está impulsado por un microprocesador Qualcomm Octa-Core y dispone de 4 GB de RAM y 64GB de memoria masiva. Admite conexión WIFI, Bluetooth y tiene conector USB-C. La batería tiene una capacidad de 5000mAh.

Más información en este enlace.




12/7/23

Detección de textos generados por IA

 


Con la llegada de las redes neuronales capaces de generar textos de cierta calidad y de mantener conversaciones razonablemente inteligibles, ha llegado también el riesgo de la farsa, la copia y la mentira generada por ordenador. Por ejemplo, podría pensarse que los alumnos universitarios podrían realizar sus trabajos simplemente pidiendo a ChatGPT o Bard que le escriban el texto, sin aplicarse ni estudiar ni esforzarse en aprender.  O un periodista podría redactar sus noticias en modo automático, sin preocuparse de verificar los hechos, contrastar la veracidad de lo que se dice o hacer el trabajo para el que se le paga.

Con esto en mente están apareciendo numeroso programas anti-fraude que afirman poder detectar si un texto ha sido redactado por un humano o por una red neuronal. Otro negocio adicional al que la propia IA genera.

Un equipo de investigadores de Europa y América, liderados por  Debora Weber-Wulff, de la University of Applied Sciences HTW en Berlín, ha realizado un análisis detallado de cuán verdad es que estos nuevos programas anti fraude son capaces de detectar textos generados por ordenador. El artículo completo puede leerse en este enlace de ArXiv.

Los resultados son descorazonadores. Los programas analizados no son capaces de detectar con suficiente grado de acierto si los textos son humanos o no. Al contrario, ofrecen numerosos falsos positivos (es decir, catalogar como creado por IA un texto escrito por una persona) y falsos negativos (textos artificiales diagnosticados como humanos), pero en general tienden más a ofrecer falsos positivos. Las conclusiones del informe inciden también en que estos programas no son robustos por cuanto que empeoran sus resultados si se intenta retocar, formatear o editar los textos para hacerlos más claros o si el idioma es el inglés. Además, los resultados no son presentados de forma clara y dan lugar a equívocos.

En fin, de momento, mejor hacer un análisis humano que dejar que un software poco fiable detecte a otro software menos fiable aún.


 


10/7/23

I could kiss, say,

 


I could kiss, say, de Jon Stone, es un poema que combina la cinemática de los versos que se mueven por la pantalla, la verbalización sonora y una banda sonora de fondo. El lector interacciona con el teclado para modificar la versión que aparece en pantalla. El movimiento de las palabras y signos ortográficos recuerda a los juegos arcades de los años 80 con rebotes en los marcos de la pantalla.

Puede leerse desde este enlace.









8/7/23

Tuesday

 


Tuesday, de Julianne Aguilar, es una aplicación narrativa que utiliza  GPT-3 y CSS para generar texto. El programa refresca automáticamente las páginas cada 20 segundos, mostrando un nuevo párrafo de la historia y eliminado la interactividad del usuario ya que, por así decirlo, la aplicación toma el control para contar la historia.

Puede leerse desde este enlace.





6/7/23

Mapa 3D de la dinámica de placas tectónicas

 


La aplicación permite visualizar el planeta en diferentes épocas geológicas de modo que pueden verse las configuraciones de mares y tierras emergidas en función de los movimientos de las placas tectónicas. 

Una vez seleccionada la época, que puede ir tan atrás como los 750 millones de años, el buscador permite encontrar un lugar o ciudad actual en la que hubiera sido su ubicación en aquel entonces. La precisión de la localización antigua es de unos 100 km.

La navegación se realiza mediante las teclas en un entorno 3D que permite rotar en varios ejes el globo terráqueo y hacer zooms.

Se trata de una creación de Ian Webster y puede accederse a ella desde este enlace.






1/7/23

Whisper

 


Similar al producto mostrado en la entrada anterior de Biblumliteraria, es Whisper, una herramienta de transcripción desarrollada por Open. AI. Según sus desarrolladores, la red neuronal que constituye su motor de reconocimiento del habla es equiparable en cuanto a acierto a un ser humano, siempre que se trate del idioma inglés.

De manera similar, se trata de un transcriptor de voz a texto en tiempo real. Permite, por ejemplo, pasarle un audio grabado en MP3 para que devuelva un texto escrito. Así, puede usarse para transcribir podcasts que nos interesen, lo hablado en una conferencia grabada, etc.

Para entrenar la red neuronal se han utilizado casi 700.000 horas de muestra de datos. Los fundamentos técnicos del sistema pueden leerse en este artículo técnico, que es sumamente interesante.

Más información en el sitio del producto.


Otter

 


Especialmente a partir de la pandemia de COVID en 2020, se han popularizado las reunión por teleconferencia mediante programas del tipo Zoom o Teams. En ocasiones, se puede grabar completamente el video y el audio pero, cuando esto no se hace, es engorroso tomar notas al vuelo para recordar, posteriormente, qué se ha dicho y cuáles fueron los puntos más importantes. Probablemente, nada más terminar la teleconferencia todos los participantes recordarán lo tratado pero una semana después ya será otro cantar.

Otter es una aplicación de comprensión de lenguaje basada en redes neuronales que permite hacer una transcripción de lo que se habla (en inglés, principalmente) y mostrarla a un lado de la pantalla. Sobre este texto generado es sencillo y rápido resaltar las frases más importantes. Todo ello queda grabado en un fichero de texto para su posterior uso futuro.

No se pretende que sea una grabación 100% exacta pero la calidad de la transcripción es significativamente alta.

Más información en el sitio del producto.