25/10/14

We Choose the Moon




We choose the Moon, un documental digital realizado por el John F. Kennedy Libray and Museum en 2009 para conmemorar el cuadragésimo aniversario de la llegada del hombre a la luna, permite al lector seguir paso a paso el histórico viaje espacial del Apolo XI. A lo largo de una serie de momentos (desde el lanzamiento hasta el amerizaje, pasando por el primer paso de Neil Armstrong), el lector puede elegir cuál desea ver, encontrando animaciones, datos, imágenes, vídeos y, sobre todo, el audio de la NASA en aquel momento, sin duda el documentos más interesante.

 







 


22/10/14

La Ley de Zipf en textos automáticos






En la década de 1940, en plena guerra mundial, el lingüista de la universidad de Harvard, George Kingsley Zipf, enunció una ley empírica que ponía de manifiesto una sorprendente regularidad en la distribución de las palabras en un texto de cualquier lengua. No existe aún explicación del porqué de esta regularidad.
La que, desde entonces, se conoce como Ley de Zipf dice que, para un texto suficientemente largo, la frecuencia de aparición “f” de una palabra dada es inversamente proporcional a su rango, ”r”, entendiendo por rango la posición de la palabra en el orden de mayor a menor (la clasificación en la “liga de apariciones”, por así decirlo). Matemáticamente:


Donde a es una constante que depende del texto utilizado. Se trata de una ley aproximada que no pretende calcular con exactitud el número de veces que se repetirá una palabra en el texto pero que sí tiene una alta correlación para considerarla como algo más que una anécdota de cálculo. Además, esta inversa proporcionalidad entre frecuencia y extensión recuerda a otras muchas relaciones similares en otras áreas del conocimiento, siendo la más notable la relación entre la frecuencia y la longitud de las onda de la luz o las del sonido.
Posteriores desarrollos han hecho que la ley de Zipf se escriba mejor como:


Siendo b una constante cercana al valor 1.
Esta ley concuerda bien con la realidad. Tomado cualquier texto, vemos que unas pocas palabras se repiten muchas veces (especialmente artículos, adverbios, preposiciones y conjunciones) y muchas de ellas son hápax legómenon en ese texto, es decir, sólo aparecen una sola vez.
Aunque, normalmente, la ley de Zipf se cumple mejor con textos de más de 5000 palabras vamos a probar su cumplimiento con el inicio del capítulo III del El Quijote que aparece en este enlace que es más corto pero suficientemente aproximado para explicar el caso y no dedicar mucho tiempo a estructurar los datos.
Para estudiar los textos usamos un programa especializado en analizar textos y calcular frecuencias, concordancias, etc. Este es TEXTSTAT (existen otros mucho más complejos y completos pero TextStat permite obtener lo que deseamos) que, amén de hacer el análisis, exporta los resultados a un fichero Excel con lo que es más sencillo el tratamiento posterior (y lograr que los gráficos encajen en el reducido espacio del blog).

El programa nos indica que ese texto tiene 2985 palabras, de las que 967 son diferentes. Si graficamos las frecuencias con que esas 967 palabras aparecen, la curva es una exponencial muy acusada que denota lo ya explicado: unas pocas palabras se repiten muchísimo mientras que la mayoría aparecen en pocas ocasiones y, como antes dijimos, no es de extrañar que las que se repiten mucho sean artículos, preposiciones, adverbios y conjunciones. En nuestro caso, la palabra que Cervantes utiliza más es “que” (en 150 ocasiones) seguida de “de” (148), “a” (90) y “la” (86). El primer sustantivo es “historia” con 22 apariciones en la posición 22. Así, para las 500 palabras de ese texto más frecuentes, tenemos:
 



 

Dadas las escalas, y para poder ver con más detalle el cumplimiento de la ley de Zipf, es mejor representar el gráfico en escala logarítmica, en cuyo caso los datos deben seguir una recta (regresión potencial dentro de la escala logarítmica).
 

Se observa que la recta es bastante aproximada a los datos reales y esta recta se aproxima más y más a los mismos a medida que aumenta el número de palabras calculadas. Podemos afirmar que El Quijote cumple razonablemente bien con la Ley de Zipf.
Veamos otro ejemplo, el cuento de García Márquez, “El ahogado más hermoso del mundo”. Se observa que aquí la Ley de Zipf se cumple peor pero, de todos modos el ajuste es todavía cercano en ciertas zonas. El texto tiene 2546, de las que 931 son distintas. La palabra más usada es “de” (123 veces), seguida de “que” (104), “y” (76), “a” (70) y “los” (70).







Sería posible mejorar la correlación usando, de acuerdo a la segunda fórmula antes mostrada, una exponencial con otro valor de "b".

Pero, ¿se cumpliría la Ley de Zipf cuando el texto hubiera sido generado automáticamente en vez de haber sido escrito por una persona? ¿o al menos se cumpliría de manera similar a lo que sucede en los escritos naturales? ¿Un texto robotizado o producido por un generador de textos, por un algoritmo, tiene las mismas características intrínsecas que uno escrito por una persona?
Para conocer esto, he generado un texto con un programita de generación de texto automático realizado para un máster en la Universidad deCádiz. Hemos generado un texto de 1941 de los que 351 son distintas. Esta es una limitación del concepto del programa ya que este utiliza plantillas determinadas y, por tanto, es mucho menos rico que un texto escrito por un ser humano. Para una comparación más homogénea habría quizá que ampliar el generador con bastantes más plantillas ("templates”) para que la variedad lingüística fuese mayor.
En este caso, la palabra que más se repite es “en” (126 repeticiones), seguida de “y” (93), “el” (86), “la” (83) y “se” (73). A este respecto, no hay diferencias significativas entre un lenguaje natural y uno artificial. Donde sí hay diferencias notables es en la cola de la lista. En un texto automático son muchas menos las hápax legómenon que en uno natural, hecho lógico si pensamos que el parser está obligado a elegir palabras de un corpus más reducido y, sobre todo, que las plantillas “le fuerzan a ser menos creativo” ya que no puede utilizar los sinónimos o textos que una mente puede imaginar en un momento dado.
Los gráficos son:






 

La correlación es menor que con el texto natural del Quijote de manera bastante evidente ya que no sólo se desvía en los extremos sino también en la zona central pero no es una correlación excesivamente peor que la encontrada en el cuento de García Márquez. De hecho, teniendo en cuenta las limitaciones antes comentadas por utilizar plantillas, parece que este texto automático cumple "mejor" la Ley de Zipf que algunos textos humanos.
No es extraño, de cualquier modo, que los textos automáticos también se acerquen a la Ley de Zipf porque no son textos "creados" por una mente alienígena o por un programa de inteligencia artificial totalmente ajeno sino que son combinaciones léxicas o gramaticales de nuestros propios idiomas.
 
 

21/10/14

Transmedia Week




Tal como en su día se anunció, la próxima semana se celebra la Transmedia Week, concretamente entre los próximos días 27 de octubre y 2 de noviembre. Patrocinado por Ars Media, y creado por StoryCode propondrá conferencias, desarrollo de proyectos transmedia, festivales, debates académicos, etc.
 
Para acceder a la información más actualizada, aquí está el enlace del evento.
 
 

20/10/14

Car Wash





Car Wash, de Megan Sapnar es un soneto digital que combina el propio texto de los versos con imágenes animadas y sonidos. Un trabajo sencillo, de poco alcance, que sin embargo, ha precisado de muchos recursos de programación: uso de Flash 4.0, Photoshop, Digital Video, Sound Forge y Acid. La introducción es un texto de Dante.
 





19/10/14

New Word Order: Basra




New Word Order: Basra , de Sandy Baldwin es una recreación del juego Half-Life en el que el lector-jugador recorre un laberinto en el que encuentra palabras a las que puede ir disparando. Los fragmentos de las palabras conforman nuevas frases. Las palabras son las de un poema de Billy Collins.
 
Puede tener algún interés en la programación en lo que respecta al mapping de texturas y textos sobre superficies pero literariamente es aburrido.
 


 

18/10/14

Ciborgs, robots, realidad virtual y distopía: Taller de literatura y cibercultura




A partir del próximo día 22 comienza en el Centro Andaluz de la Letras, en Málaga, el curso Ciborgs, robots, realidad virtual y distopía: Taller de literatura y cibercultura que se prolongará hasta junio. En sesiones de hora y media, el lunes central de cada mes, mediante el apoyo de textos paradigmáticos, se analizará la tecnología futura de la inteligencia artificial y los ciborgs y cómo estos conceptos se relacionan con la literatura de ciencia ficción. Será impartido por Nieves Rosendo.
 
El formulario de inscripción puede encontrarse en este enlace. Es gratuito pero hay plazas limitadas.

15/10/14

ICIDS 2014





Entre los próximos días 3 y 6 de noviembre, se celebrará en Singapur la séptima edición, correspondiente al año 2014, del ICIDS o lo que es lo mismo, la International Conference on Interactive Digital Storytelling.
 
Las conferencias tratan sobre escenarios digitales, creación de mundos digitales, creación de personajes, representación semántica de las historias, generación y reconocimiento del lenguaje, modelos de interfaces en narrativa, herramientas para la creación de narrativa digital, Storytelling móvil, etc.
 
La página del evento puede encontrarse en este enlace.



14/10/14

Wordfest





A partir de hoy y hasta el próximo día 19 se celebra en Calgary, Canadá, el Wordfest, un evento en el que 85 poetas mostrarán sus creaciones y que con más de 60 actividades analizarán el presente y futuro de la literatura, especialmente la poesía. El programa puede leerse en este enlace.
 
Llama la atención la presentación de Derek Beaulieu y la empresa Pattison Outdoor en la que experimentan con nuevas formas poéticas, especialmente la intrusión de los versos dentro del mundo de la publicidad de modo que el lector se encuentre, de pronto, con poesía embebida en anuncios u otro tipo de publicidad, escrita o bien en las calles, por ejemplo en carteles elevados.
 
 

13/10/14

Saah Exco




La pasada semana, muchos periódicos y redes sociales se hacían eco de la espantosa muerte de un niño en Monrovia, capital de Liberia. Tenía diez añitos. Las fotografías del chiquillo habían sido tomadas el pasado 20 de agosto. Se llamaba Saah Exco y estaba contagiado por el virus del ébola. Nadie sabía cómo había contraído la enfermedad, o dónde, o por qué. Peor aún, a casi nadie le importaba. Por miedo al contagio, la mayoría de sus conciudadanos e incluso los médicos de una clínica a la que acudió no se habían atrevido a acercarse a él, ni a intentar curarle o aliviar su dolor. Le habían condenado a su suerte, a morir solo y abandonado.  
Al mismo tiempo aparecía en España el primer caso de contagio. Una enfermera, Teresa, que se había voluntariamente presentado para tratar a un paciente repatriado, lucha ahora mismo por vencer la enfermedad.  Ayer mismo, otra trabajadora sanitaria se contagiaba en Dallas. Parecidas noticias llegaban de Chile.
Repugnan algunos tertulianos y algunos comentarios en las redes sociales. Repugnan todos aquellos que afirman que fue un error repatriar enfermos, que total no podía hacerse nada por ellos, que sólo ha servido para meter el virus en Europa. Dan arcadas los que aspiran a blindar las fronteras para que los africanos se las arreglen como puedan. Asquean los que culpan a Teresa por el contagio. Será la primera vez en la historia que se culpa al héroe que ayuda a sus congéneres porque, en su hazaña, el monstruo le hiere. Repelen todas las declaraciones de políticos que se creen virólogos y que aprovechan el caso para sus disputas. Apestan algunas empresas farmacéuticas que sólo ahora que ven negocio en occidente se dignan investigar para conseguir desarrollar una vacuna y que, durante décadas, han dejado que África sudoccidental se vaya muriendo. Asustan todos esos inversores que juegan en la bolsa neoyorkina con las subidas de las pocas pequeñas empresas que investigan sobre el virus y que identifican más pavor al contagio con más beneficios. Inquietan todavía más quienes proponen aislar a un continente, no al virus. Repugnan los gobiernos mundiales – todos- que sólo ahora que ven llegar la enfermedad a sus fronteras, aportan fondos. Da pavor comprobar que nuestras sociedades reaccionan en lo moral igual que lo hacían en el Medievo las que enfrentaban la peste.
El virus que se engendró en los murciélagos del río Ébola, en el Congo, - como una metáfora de un Drácula contemporáneo que nos chupara la sangre y la vida - , es ya un viejo conocido (se identificó en 1976) pero nadie ha hecho nada durante tantos años. Total, las muertes ocurrían muy lejos, demasiado lejos, se cebaba en seres que no nos importaban, en niños desamparados como Saah.
Ébola, es un filovirus muy peligroso. En Liberia y en España, en el Congo, en Estados Unidos y en cualquier lugar del mundo. Porque no sólo destroza los cuerpos y arrebata la vida, porque no sólo inocula su ARN y sus siete proteínas en nuestras células. Hace mucho más. Nos inocula el miedo, la cobardía, la impiedad, el egoísmo, la desconfianza, nos contagia con el sálvese el que pueda más primitivo. Es un virus que nos arrebata junto a la vida, la capacidad de ayudar al prójimo, el heroísmo, la diligencia, el arrojo, la generosidad, el valor. Nos arrebata la humanidad. A tal punto que Saah murió solo, tumbado en el suelo de las calles, para vergüenza de todos los seres humanos.
Fotografía: John Moore / Getty Images. Tomada de NBC News.



12/10/14

Ulises en realidad virtual



Eoghan Kidney, un cineasta y músico, ha puesto en marcha un proyecto para desarrollar un sistema de realidad inmersiva que permitirá caminar por los escenarios del Ulises de Joyce, el Dublín de principios del siglo XX. Básicamente, se trata de unas gafas Oculus Rift sobre las que correría un software que permitiría simular trayectorias por unos escenarios modelados siguiendo las descripciones de la novela. De momento, se ha hecho una prueba con uno de los capítulos y el autor está buscando financiación.
 
Lo cierto es que lo que se muestra en el vídeo es demasiado esquemático y requiere todavía muchos esfuerzo de desarrollo.


11/10/14

Conference on Statistical Language and Speech Processing





Tal como se anunció en su día, se celebra esta próxima semana, en Grenoble, la segunda conferencia internacional Conference on Statistical Language and Speech Processing con un interesante conjunto de ponencias sobre computerización del lenguaje natural tanto hablado como escrito. En concreto, el evento tendrá lugar en el campo de la universidad, en un entorno espectacular, al pie de los Alpes.
 
Las jornadas se estructuran en tres ejes: conferencia, talleres y contribuciones revisadas peer to peer
 
El sitio oficial de la Conferencia puede verse en este enlace.