9/7/10

Lingüística computacional (XII)





El capítulo anterior de esta serie puede verse aquí.

Tagging

Para que un texto sea algo más que unos y ceros almacenados en una memoria, se necesita adjuntarle información adicional. Para hacerlo, se añaden etiquetas (tags) a ciertos trozos de información que den significado semántico y relacional al texto. En el extremo se podría etiquetar cada palabra. Las etiquetas funcionan como metadatos.

Los niveles de etiquetado pueden ser muy diversos:

Nivel 0

Se añade una etiqueta a todo el texto (que puede ser un texto o un sitio en la web o cualquier otro documento completo) con palabras clave. Así, si disponemos de una página en Internet que trate sobre astronomía, podríamos simplemente añadir una etiqueta en que pusiera “astronomía”. Para un buscador o un algoritmo automático sería sencillo buscar esa página cuando algún usuario hiciera una pregunta relacionada con esa temática.

Obviamente, etiquetar con un único concepto es sencillo pero pobre. En el ejemplo anterior, si un lector quisiera encontrar páginas que trataran sobre cosmología, la nuestra no aparecería. Podemos, entonces, etiquetar con un grupo de palabras. En nuestro ejemplo, por ejemplo, “astronomía, cosmología, física del espacio, planeta, estrella, nebulosa, galaxia” con lo que ofrecemos más información sobre el contenido del texto y ampliamos las posibilidades de que un algoritmo encuentre la página para lectores interesados.

En HTML (el lenguaje de programación de páginas web) puede utilizarse la instrucción META precisamente para añadir palabras clave que ayuden a los buscadores a clasificar la página y a hacerla más fácilmente accesible.

Las trampas y trucos están a la orden del día. Webmasters sin escrúpulos que tengan una página sobre economía o ciencia especializada pueden añadir como palabras clave toda clase de términos pornográficos o deportivos por ejemplo sólo para atraer tráfico. Un algoritmo sencillo de búsqueda no sabrá realmente si el texto habla de una u otra cosa porque creerá a las palabras clave.


Nivel 1

Hay etiquetas a lo largo del texto, en función de lo que diga cada párrafo del mismo. Esto permite incluir más información clasificatoria y afinar mucho más las búsquedas.

Nivel 2

Cada párrafo, sistemáticamente, está etiquetado y, además, de palabras clave, dispone de otras informaciones como textos relacionados enlazados, bibliografía similar, información sobre cómo debe visualizarse el texto, llamadas a elementos multimedia, etc.

Las etiquetas pueden también contener información numérica (por ejemplo, en un texto cartográfico, pueden incluirse la latitud y longitud geográfica de un lugar).

También se dan los hash tags que permiten añadir una pequeña frase que será presentada al buscar ese párrafo. Este tipo de frases, además, pueden estar anidadas con otras.

Pueden además existir etiquetas negativas, es decir aquellas que indican de que no trata el texto, con qué no está relacionado. Incluso, pueden existir relaciones probabilísticas determinando si un párrafo está ligado o tienen relación con cierto asunto en un tanto por ciento, dependiendo por ejemplo del grado de coincidencia con la pregunta.

Nivel 3

Cada palabra, imagen o elemento está etiquetado incluyendo categorías morfosintácticas.


Categorías versus etiquetado

Durante mucho tiempo, en las bases de datos se han usado las categorías para memorizar jerárquicamente las informaciones. Por ejemplo, en un sitio de deportes podríamos establecer un entramado de niveles ordenados (categorías) que fueran desde lo más genérico a lo más especializado. En el ejemplo siguiente podríamos ir añadiendo categorías tan profundamente como deseáramos.





La diferencia entre la categorización y el etiquetado es que la primera es jerárquica y el segundo no lo es. Los tags son elementos no jerárquicos asociados a una porción de información determinada y que contribuyen a la descripción de la información en sí, facilitando que dicha información sea recuperada adecuadamente.

La principal ventaja de las categorías es que permiten estructurar la información y permiten que las búsquedas de información sean sencillas y rápidas al poder navegarse por caminos estructurados dentro de la base de datos. El inconveniente es su rigidez. Las categorías deben ser creadas por los programadores ( o por los administradores) y suele ocurrir con mucha frecuencia que se quedan obsoletas ante las necesidades reales de los usuarios.

Las etiquetas, por el contrario, tienen la ventaja de que su flexibilidad. El propio usuario las crea y las usa. No hay que ser experto a la hora de elegir la categoría apropiada para una información. Las categorías se crean y destruyen on-time por cualquiera. Resulta evidente que son una forma interesante de estructurar información en Internet donde millones de usuarios pueden interactuar en un momento dado. Las categorías tienen, no obstante, inconvenientes importantes. Uno de ellos es la explosión de términos que se crea (lo que dificulta la búsqueda), la repetición oculta o la imposibilidad de búsqueda por vía de los homónimos y sinónimos.

Tag Clouds

Como se ha citado, el sistema de tags tiende a ser explosivo. Pronto, hay cientos de etiquetas y el usuario – o un algoritmo- se siente perdido entre un océano de ellas.

Las nubes de tags permiten ordenar las etiquetas en función de su uso. Gráficamente, aparecen como una nube de términos en los que aquellos que se usan más tienen un tamaño mayor y/o quedan desenfocados o en un plano trasero 3D virtual




Esto hace también que se reduzca el número de tags ya que un usuario al ir a escoger una etiqueta para un nuevo texto tiende a fijarse y usar en aquellos términos de mayor tamaño de la nube, sin inventar otros nuevos.


Folksonomies

Recibe este nombre un sistema de clasificación por etiquetas que se realiza en conjunto por varios usuarios- desde diversas fuentes, aplicaciones y localizaciones. El nombre proviene de una contracción entre “gente” (folks) y “taxonomía” que es la forma clásica de clasificar especímenes en ciencia. Hay un trasfondo estadístico en todo esto. Se espera- y muchas veces sucede- que el etiquetado colaborativo no sea caótico sino que los usuarios vayan concentrando sus elecciones y sus palabras claves en ciertos términos que estadísticamente van tomando peso hasta resultar definitorios de un elemento con toda claridad. De un vocabulario no controlado e inmenso debe surgir un listado claro y corto que permita describir el texto, la imagen o los conceptos. Podríamos aquí considerar las ideas de las redes neuronales o de la teoría de atractores para explicar el fenómeno.



Web semántica

El contenido de este apartado está tomado de
aquí.


Las webs 1.0 y 2.0, con su mayor o menor facilidad para volcar contenido en la red y su mayor o menor interactividad, no dejan de ser bases de datos “ciegas”. Cada página es una especie de catálogo que el usuario puede leer y escribir pero que no contiene información acerca de cómo ser usada. Por así decirlo, cada página “no sabe de qué trata ella misma y el ordenador no sabe qué muestra o deja de mostrar”. Las páginas tienen significado para las personas que las leen pero no para los ordenadores que las procesan.

Cuando realizamos una consulta sobre un tema concreto, se nos presentan miles, millones a veces, de potenciales lugares sin orden ni concierto (o, peor aún, con el orden y concierto que da el dinero pagado por las empresas para que las páginas aparezcan en mejores lugares). El algoritmo Page Rank de Google es un intento, aún incipiente, de lograr un mayor acierto en la búsqueda de información ¿Cómo podemos dotar a las máquinas de una cierta inteligencia para que realmente nos muestren aquello que nos interesa? Esta idea, aunque puesta de moda ahora, es tan vieja como la red.

Ese es el objetivo de la web 3.0 (término propuesto por Jeffrey Zeldman más como arma publicitaria que de concepto). Se trataría de añadir a cada página una serie de contenidos semánticos (metadatos) de manera que un programa de inteligencia artificial pudiera evaluar si esa página, y no otra, es la que realmente nos interesa cuando hacemos una consulta. Es decir, añadirle un contenido semántico que pueda ser tratado por máquinas.

Imaginemos, por ejemplo, que queremos encontrar información referida a las novelas de García Márquez que sean de su primera época y que se puedan adquirir por menos de diez euros en alguna librería de nuestra ciudad. Una búsqueda de este tipo, en la actualidad, puede llevar horas y necesitar saltar por cientos de websites. Pero, sí cada página contuviese información adicional oculta que la centrara en un interés concreto, podría aparecernos el contenido requerido inmediatamente.

Lograr esto es complejo. Para empezar requiere sistematizar de manera rigurosa el conocimiento, lo que ya de por sí es tarea de titanes (si no, ya tendríamos ordenadores pensantes). Para un humano entender que “hace calor” es inmediato pero ¿cómo hacemos que un ordenador “entienda” ese concepto? ¿cómo lo codificamos? Además, requiere encontrar una vía de simular el pensamiento metafórico del ser humano que llama de diversas maneras a un sólo concepto, algo que aún no se conseguido técnicamente. ¿cómo “sabe” un ordenador que “hace calor”, “¡vaya calor!”, “ hace un día sofocante” es más o menos lo mismo? ¿cómo codificamos esas infinitas formas de decir? En definitiva, se trata de dotar a la máquina de cierta capacidad de razonar. Un campo de investigación, dicho sea de paso, apasionante que no sólo se da en el ámbito de la red sino, sobre todo, en el de la ingeniería y en el campo militar.

El primer paso será crear la “data web”, una base de datos universal que entienda todos los formatos ahora existentes en los miles de millones de páginas almacenadas en Internet. El estándar RDF parece que puede ser útil en este desarrollo como base de datos de metadatos pero es muy complejo matemáticamente y no se popularizará con facilidad. Hay ya, en estos momentos, aplicaciones que acumulan las relaciones que se establecen en las redes sociales, es decir usan el conocimiento que los seres humanos utilizan al usar la red. En este campo tenemos KnowItAll , Metaweb, PowerSet o RadarNetworks, por ejemplo. El lenguaje RDF/OWL es un paso reciente para codificar conocimiento ontológico. También existen ya formatos locales especializados para almacenar información determinada como los propuestos por Tecnorati para formatear la información de contacto de una persona (microformato hCard), una cita (microformato hCalendar), una opinión (microformato hReview) o una relación en una red social (microformato XFN). Bastantes proyectos están financiados por organismos militares.

Pero, en general ahora mismo, no sólo nos falta aún teoría lógica sino un hardware capaz de computar tal cantidad de información a la velocidad suficiente pues de nada serviría hacer una consulta cuya respuesta perfecta llegara tres años después.Una cuestión que queda en el aire es si esa enorme capacidad de raciocinio de las nuevas máquinas estará gratuitamente en manos del público en general.¿Qué aportaría la web 3.0 – cuando se logre- a la literatura?A la digitalizada está claro que mucho. A la filología también. La facilidad para encontrar textos, para analizar un corpus o para buscar referencias será extrema y esta simplicidad acelerará los estudios literarios por el simple hecho de que se podrá hacer más y mejor en mucho menos tiempo. Podrán establecerse conexiones semánticas entre web lejanas, encontrar nuevas asociaciones y hacer estudios comparativos extremadamente profundos.

¿Y a la literatura digital en sí misma? Es un campo desconocido, una tierra que explorar. Si aún no hemos sido capaces de utilizar de manera creativa y claramente diferenciada –en literatura digital- la web 1.0 y la web 2.0, es difícil imaginar qué se puede conseguir con la web 3.0

Algunas ideas:

- Un uso extensivo de los mash-ups que mediante los metadatos semánticos permitirían escribir obras dinámicas de alta calidad. Utilizando el concepto medieval de que “escribir es reescribir” podría pensarse en combinar textos de alto nivel literario de manera novedosa y creativa. Habría que reconsiderar el concepto de plagio y delimitar los derechos de autor pero las posibilidades son interesantes. Si a estas combinaciones añadimos generadores de textos “inteligentes” más avanzados podríamos obtener textos definitivamente atractivos. ¿Quizá una novela negra en el buen blank verse de Shakespeare?
- Textos que “entiendan” el lenguaje natural (un reto que hunde sus raíces en los inicios de la informática, allá por los cincuenta del siglo pasado, y nunca conseguido) de modo que puedan interactuar con el usuario creando diálogos on-time que tengan sentido y calidad literaria.
- Red de hiperenlaces que siempre lleven a una historia atractiva (lo que sería una evolución del hipertexto adaptativo tal como se describía
aquí) y que eviten un curso narrativo aburrido o fallido.
- La novela interactiva en que uno de los personajes sea el lector. La novela se adaptaría a lo que, libremente – y siempre de manera distinta-, escribiera el lector formando el diálogo y los escenarios de manera coherente con esta interacción. Esto podría ser posible dado que la máquina “entendería” el contexto y el significado del texto.


Gestión de bibliotecas

Un campo de la aplicación de los ordenadores a la lengua es la gestión computerizada de las bibliotecas, existiendo un ámbito para aplicaciones tradicionales (es decir, repetir, de manera rápida y cimputerizada las labores bibliotecarias que se han hecho desde siempre de forma manual como clasificación, archivo, préstamo, localización, etc.) y otro para aplicaciones que no podrían existir sin el ordenador. Por ejemplo, pueden citarse las siguientes tareas:


La ordenación de las fichas de clasificación.

Gestión de usuarios y sus datos.

Gestión de préstamos.

La realización de copias.

Realización de las fichas de clasificación con los datos necesarios.

Listado de ubicaciones donde una obra puede consultarse.

La intercalación de las fichas en el catálogo correspondiente.

Gestión económica.

Confección de estadísticas.

Reclamo de libros cuyo préstamo ha vencido.


Todas estas tareas son hoy en día realizadas por programas de ordenador especializados que han permitido una mayor calidad, más rapidez y menores recursos humanos necesarios.

En el ámbito de las tareas difícilmente abordable sin ordenadores podemos citar la digitalización de originales, la anotación inteligente de los corpa, la creación de glosarios interconectados, de thesaurus , elaboración de catálogos de publicaciones por diversos campos, o la elaboración de catálogos colectivos.
Todas estas tareas, en realidad, pueden clasificarse en dos grandes grupos :

* Agilizar los procesos y servicios bibliotecarios

* Crear bases de datos bibliográficos complejas y completas, utilizables de manera abierta y colaborativa entre varias instituciones o personas. Cada biblioteca individual debe poder realizar su base de datos de manera local pero estas bases de datos deben poder ser integradas aguas arriba de manera jerárquica hasta alcanzar a completar la gran base de datos nacional o supranacional. Esto conlleva el que deben existir ciertos estándares para que las informaciones puedan ser compartidas y entendibles por todos los sistemas. Exise, por ejemplo, el formato MARC, los registros ISBD, catálogos COM en microfichas, usar un mismo formato (EPUB por ejemplo) en las digitalizaciones, sistemas de recuperación como QUEST, BLAUSE o SDC, etc.


Algunos aspectos a considerar

Cuando una biblioteca está digitalizada, conviene analizar algunos aspectos como :

· Migración : la rápida evolución del hardware y del software conlleva un riesgo que hasta ahora no había existido. Y es el de que un texto digitalizado simplemente no pueda leerse en el futuro. Yo mismo dispongo de relatos alamcenados en floppies de 5 pulgadas que no sé dónde puedo recuperar (al menos de manera sencilla, sin gastar mucho dinero). Y si aún los floppies pueden ser copiados pagando por el servicio, los que tenemos cintas de casette para ordenadores Amstrad lo tenemos aún más complicado. Y los que tienen cintas magnetófonicas de los primeros ordenadores, más aún. Y los que conservan fichas perforadas más aún. Pero es que sólo han transcurrido 50 años. Y en ese breve espacio de tiempo ya existe muchisima información que es casi innaccesible. Dentro de un siglo, con toda probabilidad, será absolutamente innacesible.

Pero no sólo es un problema de hardware. ¿Cuántos ficheros wen versiones antiguas de WordPerfect o Write existen que son difíclmente accesibles hoy en día ? ¿O que si se recuperan tienen tantos defectos de formato que se hace complicado leerlos ? ¿Qué ocurre ya con el caótico océano de estándares : Word, Epub, PDF, Windows, Apple, Linux…)

Por ello, los sistemas digitales de las biliotecas deben prever que existan migraciones constantes que deben ser sólidas y rápidas.

· Durabilidad de los soportes : Aunque pueda parecer lo contrario, los nuevos soportes físicos son más endebles que los antiguos. La piedra era más segura que el papel ; el papel más seguro que la cinta magnética, que el CDROM, que el DVD. En este
post un lector dejó un comentario que remitía a este post y a los defetos que aparecen en los soportes digitales con el tiempo. Aquí se señala que el 15% de los CDROMs grabados son ilegibles a los tres años y muy pocos pasan de 10 años. La situación no es mucho mejor con los DVD y muchos autores afirman que pasar de 200 años es complicado. Nada que ver con los miles de años de muchos documentos existentes.

Por ello, el cómo preservar los soportes o, en su defecto, ir haciendo copias de renovación, es indispensable.

· Copyright y derechos : no lo abordamos en este post pero es evidente que es un problema ya existente y de complicada solución en la medida que las copias son más fácilmente de realizar.





To be continued…..

(El siguiente capítulo de esta serie puede leerse en este enlace)



No hay comentarios:

Publicar un comentario