29/12/24

Spore

 


SPOREes el acrónimo de Spatial Hypertext-oriented Recommender System, una aplicación que imita y facilita el proceso de detallar las historias complejas, tal como que ya existe en la industria cinematográfica y de televisión, incluso en la creación de novelas. Dentro de la jerga del sector, SPORE permite hacer el storybreaking.

El storybreaking es el proceso de esbozar y planificar los elementos narrativos clave y los puntos argumentales de una historia para que cada rama de la misma sea coherente y significativa, que todo conduzca a un fin. El storybreaking consiste, pues, en identificar cada punto de inflexión dentro de una narración. Así nos aseguramos de tocar todos los puntos necesarios y omitir los que no hacen avanzar la historia. 

Un estudio que se realiza normalmente antes de que comience el proceso formal de escritura o grabación pero que también puede realizarse en el montaje final. Se trata de una tarea habitualmente realizada por humanos y que conlleva un tiempo considerable y un coste importante. Es por ello que sistemas automatizados pueden resultar rentables.

La arquitectura de SPORE tiene tres capas. La primera, denominada Hel, es el núcleo de cualquier servicio relacionado con el conocimiento. La segunda, Midgard, es una colección de interfaces de usuario. Por fin, la tercera, Asgard, es un conjunto de servicios y componentes inteligentes y conscientes de la estructura.

La base de conocimientos (Hel) se prepara con información para apoyar la tarea de crear historias. Contiene datos y relaciones sobre cuentos, novelas, textos, etc., que pueden ayudar a los usuarios a esbozar su historia. La interfaz de usuario (Midgard) es un hipertexto espacial colaborativo que permite a varios usuarios disponer y organizar las piezas relacionadas con su historia. Con ayuda del análisis sintáctico espacial, la máquina toma conciencia de la estructura emergente (Asgard) y utiliza esta información para generar consultas hacia la base de conocimientos. Ésta responde con sugerencias que se visualizan en la interfaz de hipertexto espacial 2D. A petición de los usuarios, los sistemas transforman las piezas dispuestas y su estructura en una descripción de tareas para una IA generativa, lo que da lugar a un borrador o una sugerencia de cómo puede ser la historia. 

Para alimentar la base de datos se identifican los recursos públicos disponibles y se analizan con ayuda de sistemas de  Procesamiento del Lenguaje Natural (PLN) u otras técnicas, a fin de extraer la información clave de la historia. Este enfoque da lugar a un grafo ponderado dependiente del idioma, formado por sustantivos como nodos y sus relaciones como aristas entre los nodos. El peso de cada nodo se normaliza entre 0<weight≤1, siendo que 1 representa una «relación muy estrecha» y 0 ninguna relación. En este contexto, la relación se basa en las co-ocurrencias en las páginas. Se trata de un enfoque sencillo, pero que, en comparación con las redes semánticas, los conceptos que no comparten una relación semántica obvia y no están cubiertos por la ontología siguen estando cubiertos y disponibles en el grafo resultante. El trabajo futuro puede incluir grafos de conocimiento más sofisticados, basados en la semántica, o el uso de ontologías.

Para el sistema de interface, se usa una aplicación web de una sola página (SPA), basada en VueFootnote4 y NuxtFootnote5. Esta aplicación se comunica con un servidor. Un espacio 2D - llamado espacio de trabajo- puede contener un número arbitrariamente grande de entidades. Una entidad encapsula cualquier pieza de información como URLs, texto simple, imágenes o documentos PDF. Esas entidades tienen una posición y unas dimensiones dentro de ese espacio de trabajo. El servidor gestiona su persistencia, la autenticación y autorización de los usuarios, y permite que un espacio de trabajo sea accedido y manipulado por muchos usuarios al mismo tiempo. Además, actúa como puerta de acceso a la base de conocimientos y es responsable del análisis sintáctico espacial y la generación de consultas.

SPORE evita la complejidad de elaborar consultas porque éstas se generan automáticamente en función del contexto actual de un espacio de trabajo. El contexto viene definido por las propiedades visuales de las entidades del espacio (que son reconocidas por analizadores espaciales), las últimas interacciones del usuario y el contenido. Cada vez que cambia el contexto -por ejemplo, porque se añade un nuevo sustantivo o se actualiza uno ya existente- se pone en marcha un proceso para interpretar ese nuevo contexto. En el segundo paso, el contexto se transforma en una o varias consultas.

Es sistema devuelve un grafo completo, en el que cada nodo representa una entidad visual. Las aristas se ponderan de 0 a 1 - de forma similar a cómo se hacía en la la base de conocimientos- y cuantifican la fuerza de la relación visual. Un valor negativo indica una situación ambigua. Cada subgrafo representa un grupo visual de objetos dentro del espacio. Ajustando el valor del umbral, es posible limitar la detección de grupos a un nivel muy detallado o identificar estructuras de orden superior.

Es posible la integración con LMMs como ChatGPT. Así, los usuarios pueden identificar los componentes narrativos centrales que les gustaría ver integrados en su historia, antes generar un texto completo.  Este proceso puede repetirse indefinidamente, creando nuevas iteraciones de las mismas ideas centrales. 

La implementación actual hace uso del modelo «gpt-3.5-turbo» proporcionado por OpenAI para generar prosa a partir de un contexto dado. Para ello, el modelo se alimenta con un prompt del sistema, que establece la tarea y sus condiciones. Un segundo prompt se construye a partir de la estructura identificada por los analizadores espaciales. El objetivo es comunicar grupos visuales y pedir al modelo una versión de la historia en la que las entidades de dichos grupos pertenezcan juntas. 

El artículo completo puede leerse desde este enlace. El artículo está firmado por Daniel Roßner, Claus Atzenbeck y Sam Brooker. 



0 comentarios :