23/4/10

Lingüística computacional (I)




Introducción

Arte que emplea como medio de expresión una lengua.

Así define la RAE la literatura. Y queda meridianamente claro que el lenguaje y la palabra son el corazón de toda literatura, por encima de otros aditamentos artísticos que pudieran unírsele.

En la literatura digital, por tanto y en cuanto que es literatura, el tratamiento del lenguaje es fundamental. Y en cuanto que es digital, el que ese tratamiento sea informatizado es asimismo básico.

Deberíamos convenir, entonces, que el análisis lingüístico por medio del ordenador debería ser una disciplina importante dentro de la literatura digital. En la práctica, sin embargo, esto está bastante lejos de ser realidad.

Por un lado, tenemos la literatura digitalizada que no precisa ningún tipo de tratamiento informático del lenguaje. En este ámbito, los bits que representan las palabras no tienen significado semántico. O bien son bits que representan un gráfico, un color (como en los textos escaneados) o bien son una transcripción a código binario de un texto pero en el que los elementos definitorios del lenguaje se han perdido. En un e-book, el código binario 0100 0001 0100 1101 0100 1111 0101 0010 es interpretado por el microprocesador para que active determinados pixeles en pantalla que muestren la palabra AMOR. Pero el software no sabe que se trata de un sustantivo, de género masculino, que puede unirse a un determinante y ser sujeto de un verbo, ni mucho menos el sentimiento que esa palabra nos evoca ni las metáforas que pueden imaginarse a partir de la misma.

En segundo lugar tenemos la literatura digital en donde el texto necesita de ciertos algoritmos que permitan viajar a través de la historia o mostrar las letras de un modo imposible sobre papel. El ordenador maneja los códigos de manera similar al caso anterior, sólo que los programas que los modifican no se limitan a visualizarlos sino que pueden mezclarlos, detectar acciones interactivas sobre ciertas zonas de pantalla, etc. Pero el ordenador sigue sin saber qué significan las palabras, las frases y, en la mayoría de los casos, incluso si estas están bien construidas. Ciertamente, existen algoritmos narrativos que permiten generar frases correctas pero están fundamentados en que un humano ha determinado un orden muy estricto de palabras y ha seleccionado un corpus muy restringido de ellas que pueden encajar en los moldes creados. Ejemplos de este tipo pueden verse
aquí y aquí.

Para ir más allá, para lograr que un ordenador pueda generar buena literatura se precisa modelar el lenguaje, del mismo modo que nuestro cerebro lo hace. No existe, hoy por hoy, un programa capaz de manejar el idioma como lo hace un ser humano. Pero sí existe una disciplina que lo intenta: la lingüística computacional que analiza la aplicación de los ordenadores al estudio científico del lenguaje. Es una materia compleja que muchas veces suele encuadrarse dentro del campo de la Inteligencia artificial, algo bastante razonable dado que si algo caracteriza al ser evolucionado e inteligente es precisamente el habla. Como fin último se trataría de incorporar en el software de los ordenadores la habilidad en el uso del lenguaje, tanto desde el punto de vista de expresión como del de comprensión.

La lingüística computacional y la informática lingüística (quizá son malos neologismos que provienen del inglés linguistic computing y computational linguistic, pero ampliamente aceptados en cualquier caso) no sólo serían útiles en la consecución de una literatura digital de gran calidad. De hecho, si sólo fuera esta su utilidad probablemente no habría tanta actividad en torno a las mismas. Una transcripción formal del lenguaje en algoritmos permitiría, entre otras cosas, tareas como:

- Traducción automática de textos entre cualquiera de los idiomas del planeta, una aplicación anhelada por los organismos internacionales.
- Enseñanza de idiomas (si se consiguieran comprender los mecanismos profundos del lenguaje como para plasmarlos en algoritmos, posiblemente esas mismas deducciones servirían para poder aprender lenguas de modo rápido).
- La logopedia.
- El análisis sintáctico avanzado.
- La comprensión de las preguntas escritas que un usuario haga a un ordenador (algo que la
web 3.0 pretende a largo plazo).
- La generación de respuestas con sentido y razonadas.
- La conversación interactiva con una máquina (HAL sigue presente).
- Los procesos de archivo y documentación de textos.
- La edición de textos antiguos.
- El análisis de textos.
- Lexicografía.
- Análisis semántico.
- Reconocimiento del habla. Que un ordenador entienda lo que decimos y sepa interpretarlo correctamente. Aquí, podemos recordar una escena célebre de Star Trek en la que Scotty retrocede en el tiempo hasta nuestra época y su primera ocurrencia es hablar con el ordenador, no usar el ratón o teclear.
- Síntesis fonética, es decir que el ordenador nos hable en vez de mostrarnos texto, algo evidentemente útil para ciertas discapacidades.
- Escritura automática de textos técnicos a partir de bases de datos. Por ejemplo, una computadora ha podido realizar un exhaustivo análisis por el método de los elementos finitos de las solicitaciones estructurales del casco de un submarino. Sin embargo, hoy en día, el informe que muestre los resultados y los interprete será escrito por una persona. Podría pensarse que fuera el propio ordenador el que lo hiciera a partir de sus propios cálculos.
- Escritura de textos literarios que sean capaces de rivalizar con los escritores de carne y hueso.

En algunas de estas actividades se ha avanzado con notable éxito. Por ejemplo, la síntesis fonética puede darse casi por conseguida ya que existen programas que son capaces de pronunciar correctamente un texto escrito en diversos idiomas. Se usan, por ejemplo comúnmente en aeropuertos para dar anuncios. He escrito “casi” porque aún no pueden simular las emociones y los sonidos suenan un tanto mecánicos, demasiado iguales, con las pausas siempre en el mismo lugar aún cuando no procedan, sin pasión alguna.

Asimismo, el análisis de textos puede llevarse a cabo con gran eficacia si los textos han sido previamente categorizados. Si, por ejemplo, cada palabra individual de un libro ha sido etiquetada con atributos de manera que se almacenen, junto al propio código de la palabra, otros que definan si es adjetivo o adverbio, sustantivo o verbo, su género, si es plural o singular, nombre propio o común, a qué idioma pertenece, su etimología o cualquier otra categoría morfosintáctica que deseáramos, sería posible escribir un algoritmo que utilizara todos esos datos. Podríamos, por ejemplo, preguntar al ordenador cuántos sustantivos terminados en ced aparecen en La Celestina por poner el caso. Y, posteriormente, podríamos analizar cuántos de esos mismos sustantivos aparecen en El Quijote y comparar los modos y estilos de Rojas y Cervantes. O podríamos saber si un escritor determinado usa más o menos una palabra determinada, o en que contexto, o si repite frases a lo largo de su obra. Esto puede ya hacerse hoy en día si bien requiere de un trabajo de categorización previa que, en muchos casos, resulta titánico porque la codificación es básicamente humana.

Si, además, este corpus etiquetado morfológicamente lo está también sintácticamente, las posibilidades se multiplican.

Mas, en general, lo que queda por estudiar y descubrir representa aún un vasto territorio, lleno de oportunidades y retos. Y el vehículo que nos ha de permitir avanzar en ese desconocido universo es la lingüística computacional.

Iremos viendo retazos de la misma en próximos capítulos.

to be continued


1 comentarios :

Anónimo dijo...

es posible que como en los juegos de ajedrez, finalmente los ordenadores venzan a los humanos también escribiendo.