2/7/10

Lingüística computacional (XI)



El capítulo anterior de esta serie puede verse
aquí.

Traducción por ordenador

Uno de los primeros campos que atrajo el interés de los lingüistas computacionales fue el de la traducción automática por ordenador ya que tenía una aplicación práctica, inmediata y muy necesaria. La multiplicidad de lenguas humanas obliga a disponer de muchos traductores que, para idiomas minoritarios, deben además encadenarse. Así, por ejemplo, en la Unión Europea con decenas de lenguas oficiales puede ocurrir que no haya traductores directos entre, por ejemplo, el lituano y el islandés. Entonces, se procede a traducir en cadena. El traductor humano lituano traduce al inglés y otro traductor traduce del inglés al islandés. Además de ser un proceso lento y costoso, que requiere recursos humanos no siempre disponibles, puede dar pie a errores y a hacer que el tradicional adagio de traduttore, traditore sea más cierto que nunca.

Además, hay muchos idiomas no oficiales que aspiran a serlo en las instituciones internacionales. Si ya puede resultar complicado hallar traductores entre el islandés y el serbio, imaginémoslo entre el tagalo y el euskera.

El mercado globalizado de hoy en día precisa también de una ingente tarea de traducción. Las empresas venden en todo el mundo y los consumidores esperan las informaciones y los libros de instrucciones en su propia lengua.

La tarea de traducir correctamente es sumamente importante. Incluso, hoy en día, existen normas que evalúan la calidad de una traducción como son la norma EN 15038 en Europa y la ASTM F2575-06 en los Estados Unidos. Y, hoy por hoy, las buenas traducciones las hacen los seres humanos. Las traducciones automáticas, en ocasiones, generan textos tan absurdos y divertidos como el de un fabricante de lectores de CDROM:
INSTALACION DE HARDWARE:

1. Cierra el PC y desconecta todos cordones eléctricos.
2. Refiere a su manual del usuario de PC para quitar la cubierta de PC.
3. Instala su CD-ROM al aparato Master o Slave de acuerdo con la siguiente sección.
4. Ubica un area desocupado al cual se desliza el CD-ROM y monta el mando usando 4 tornillos.
5. Conecta el cable de poder a su mando CD-ROM. NOTE: La definición de pinza del conector de poder debe ser la misma que se da en Figura 1.
6. Conecta el cable E-IDE (40 pinzas) a su C-ROM según la descripción dada en la sección siguiente.
7. Conecta el cable de sonido del Audio Análogo en el panel trasero de su CD-ROM a la tarjeta de sonido si la tiene en su sistema. NOTE: El canal R debe venir normalmente en rojo.
8. Vuelve a colocar la tapa de PC y conectar los cordones de poder.
9.- Set Master or Slave Jumper - Maestro de Colocación o Saltador de Eslavo
10.- Eyaculación de emergencia: Si el usuario no puede eyacular el disco oprimiendo el botón Abrir/Cerrar, él/ella puede insertar una barra pequeña en el hoyo para eyaculación manual.
NOTA: Favor apagar el aparato antes de la eyaculación manual.


Hay que convenir que seguramente, con estas instrucciones, uno será incapaz de instalar el lector CDROM pero reírse, seguro que se ríe.

En los años cincuenta, cuando aparecieron los primeros ordenadores (que, por entonces, eran mastodontes de escasa potencia) se pensó que sería sencillo el traducir de un idioma cualquiera a otro si se disponía de diccionarios digitalizados y se aplicaban algunas normas sencillas. En plena guerra fría, la posibilidad de disponer de traductores ruso-inglés automáticos era muy atractiva. Es famosa la anécdota de que en las primeras pruebas que se hicieron, se observó ya que la tarea no iba a ser tan fácil como parecía. Alimentado un ordenador con una frase de la Biblia:

The flesh is weak but the spirit is strong (La carne es débil pero el espíritu es fuerte)
Y traducida del inglés al ruso y nuevamente al inglés, el resultado fue:

The meat is tender but the vodka is strong (el filete está tierno pero el vodka está muy fuerte

debido a que el programa no pudo resolver la distinción entre flesh y meat o el doble significado de spirit como espíritu y licor.

La creación de algoritmos que traduzcan es complicada por la enorme ambigüedad de las lenguas naturales, la explosión de reglas o rasgos cuando se usan gramáticas formales, la recursividad propia de los idiomas, la gran flexibilidad en la formación de las oraciones o los matices que la emisión sonora da al significado y que no puede ser recogida en un texto. Ni que decir tiene cuando contemplamos los giros idiomáticos, las homonimias o las jergas.

Con el tiempo, los investigadores se han ido decantando por versiones posibilistas. Si es muy complicado conseguir una traducción automática correcta a la primera, parece más factible conseguir crear sistemas que ayuden a traducir, que hagan una primera labor de desbaste produciendo una versión que luego será pulida por un ser humano. Versión inicial que, para personas que desconozcan el otro idioma, puede significar pasar de no entender nada a comprender el significado aunque no esté bien expresado.

Si por ejemplo, tenemos la frase en inglés:

Noam Chomsky has argued that many of the properties of a generative grammar arise from an "innate" Universal grammar, which is common to all languages. Proponents of generative grammar have argued that most grammar is not the result of communicative function and is not simply learned from the environment. In this respect, generative grammar takes a point of view different from functional and behaviourist theories.


La traducción que tenemos en la misma web en su versión en español es (tomada de
aquí ) :

Noam Chomsky ha discutido que muchas de las características de una gramática generativa se presentan de un “natural” Gramática universal, que es común a todas las idiomas. Los autores de la gramática generativa han discutido que la mayoría de la gramática no es el resultado de la función comunicativa y no está aprendida simplemente del ambiente. A este respecto, la gramática generativa toma un punto de vista diferente de funcional y behaviourist teorías.
Que sin duda no es una buena traducción pero que para alguien que no sepa inglés será muy útil ya que al menos le permitirá saber de qué va el asunto.

Estos sistemas se denominan CAT (Computer Assisted Translation) y han proliferado mucho en los últimos años, desde los más sencillos en línea hasta sistemas profesionales que cuestan mucho dinero.

Los traductores actuales han dejado de buscar el modelo teórico perfecto que simule una gramática formal capaz de entender y generar una lengua. Al contrario, se basan bastante en la fuerza bruta. Pero una fuerza bruta inteligente que aúna la rapidez de cálculo de las computadoras con una base teórica que permite acelerar el proceso de traducción.

Particularmente, se están usando:

Corpa de traducciones MT


Se trata de ingentes bases de datos en donde millares de frases típicas de un idioma se memorizan junto a sus traducciones en otros idiomas hechas por humanos y, por tanto, fiables totalmente.

Estos corpus paralelos están además organizados inteligentemente, etiquetando cada oración por separado, señalando los matices que pueden contener, definiendo las frases adyacentes que potencialmente pueden existir, etc.

Además, aplicando las técnicas de lógica difusa (Fuzzy logic) puede determinarse si una frase se aproxima a otra existente en el corpus aunque no sea exactamente igual y se puede definir en cuánto se aproxima, un umbral que además suele ser programable por el usuario.

Así, si tenemos la frase:

La llegada del hombre a Marte supondría uno de los logros más importantes de la técnica al aunar la capacidad de fabricar naves espaciales capaces de soportar viajes de muchos meses, crear condiciones ambientales habitables para una tripulación humana y refinar el cálculo de trayectorias cósmicas con un precisión extraordinaria.

Si el programa encontrara la frase a traducir:

La llegada del hombre a Venus supondría uno de los logros más importantes de la técnica al aunar la capacidad de fabricar naves espaciales capaces de soportar viajes de muchos meses, crear condiciones ambientales habitables para una tripulación humana y refinar el cálculo de trayectorias cósmicas con un precisión extraordinaria.
podría determinar que la aproximación es tan alta que podrá sustituirse (echando mano al diccionario memorizado) Marte por Venus para que la traducción de la frase original sea válida.

Ahora, bien si se enfrentara a la frase:

La llegada del hombre a un planeta supondría un logro importante de la técnica al aunar la capacidad de fabricar naves espaciales capaces de soportar viajes de muchos meses, establecer unas condiciones de relación entre los participantes muy estricta y refinar el cálculo de trayectorias cósmicas con un precisión extraordinaria.

podría usar la frase original o no en función de lo que el usuario del programa le haya indicado en cuanto a necesidad de acercamiento. O bien, podría usar sólo aquellas oraciones que se acercan mucho, desestimando las otras.


Además de que la base de datos debe ser lo más amplia posible, es fundamental disponer de un buen motor de búsqueda. El algoritmo de búsqueda de semejanzas debe ser rápido ya que de nada nos serviría tener una base de datos perfecta si el ordenador necesitara diez años en encontrar la frase traducida. El motor de búsqueda debe permitir explorar una gran cantidad de texto e identificar patrones lingüísticos y terminológicos comunes en un breve intervalo de tiempo (y breve, aquí, significa milisegundos).

Un motor de búsqueda intenta, por tanto, emparejar segmentos entre el corpus del idioma de entrada y el de salida. Puede ocurrir que la similitud sea perfecta o entre dentro del rango aceptado por el usuario. En tal caso, se procede a traducir copiando la frase destino memorizada. Si, por el contrario, la similitud es escasa se presenta al humano lo que se ha conseguido y este la corrige. Esta frase corregida se memoriza, de modo que para la siguiente vez, la base de datos es más rica y completa. Algo similar ocurre si la similitud es tan escasa que el motor de búsqueda no puede ni siquiera sugerir una traducción. En tal caso, la frase original se presenta al humano que ha de traducirla manualmente, memorizándose para una siguiente ocasión. Con el tiempo, será difícil que las sentencias usuales no acaben estando en la base de datos, bien sea al completo o por partes.

Los corpa de traducciones logran altas calidades pero, por el contrario, requieren un periodo largo de aprendizaje(es decir, hasta que la memoria alcanza un valor crítico de datos) y necesita un mantenimiento humano exhaustivo, especialmente en lo concerniente a eliminar contradicciones.


Alineadores

Son programas previos a las bases de datos anteriores. Son algoritmos que extraen segmentos de frase para ser posteriormente unidas en parágrafos mayores que son alimentados a los motores de búsqueda de las bases de datos.


Extractores de terminología

Son programas que detectan y extraen las palabras clave de un texto de modo que estos términos puedan ser usados posteriormente para facilitar la búsqueda en las bases de datos o para indexar y categorizar las frases para un futuro uso.
Así, si un extractor encuentra la frase:

En el sector de la máquina-herramienta, la mecatrónica resulta fundamental hoy en día ya que se precisa un íntima interrelación entre los componentes mecánicos y los autómatas programables que hacen que se muevan en un ciclo coordinado y controlado.

El extractor hallaría como palabras clave máquina-herramienta,mecatrónica y autómata permitiendo al motor de búsqueda lanzarse primeramente a buscar entre frases que contengan estos términos, normalmente con bastante acierto. Podemos imaginar, por ejemplo, que una frase que trate de cirugía cardiovascular difícilmente incluiría esas palabras clave y puede pasarse sin revisarla. Aunque, claro, nunca se sabe.


Gestores de terminología

que son programas que organizan los términos, categorizándolos para que sea más fácil manejarlos automáticamente. Los gestores terminológicos profesionales mayoritariamente tienen una orientación onomasiológica a diferencia de los diccionarios electrónicos de léxico común cuyas unidades se organizan con una orientación semasiológica, esto es, en cada entrada o registro del diccionario se apuntan los diferentes valores semánticos.


Algunos traductores en línea

Aunque existen bastantes programas de traducción profesionales, no los trataremos aquí al entrar en el ámbito comercial. Nos centraremos en los que están disponibles en línea y que, se supone, tienen menor efectividad que los profesionales y costosos.

Softcatalá

Se trata de un traductor castellano- catalán y catalán-castellano que presenta un alto grado de calidad sobre todo para frases comunes. Puede encontrarse
aquí.




Por ejemplo, para la frase en castellano:
Caminamos por el bosque, rodeados de altos robles, tan espesos que parecían construir un manto de hojas en lo alto. La luz que se filtraba a través de ellos estaba llena de reflejos arco iris

Obtenemos:

Caminem pel bosc, envoltats d'alts roures, tan espessos que semblaven construir un mantell de fulles al capdamunt. La llum que es filtrava a través d'ells estava plena de reflexos arc de Sant Martí


Que, si no es perfecta, sí es buena.




Google en el propio buscador

El buscador Google ofrece un traductor de las búsquedas que no lo hace mal dado que se trata de frases muy cortas. Así, para:

Grammar of Medieval Greek project. The University of Cambridge has been awarded a substantial research grant by the Arts and Humanities ....

Obtenemos:

Gramática del proyecto griego medieval. La Universidad de Cambridge ha sido galardonado con una beca de investigación sustancial de la Artes y Humanidades del Consejo de Investigación


Que, aparte de algún error de concordancia es más que aceptable.


Google traductor

Puede accederse a este servicio
aquí:





Por ejemplo, alimentemos el traductor con parte de un relato en Biblumliteraria:
Fuensanta Sanguineri era una joven agraciada e inteligente pero, a sus veinticinco años, permanecía soltera, hecho que causaba asombro entre sus amistades y enojo a sus padres que hacía ya años que deseaban casarla en un matrimonio de provecho.

Los Sanguineri eran oriundos de Padua pero la familia se había trasladado a Venezuela cuando los ejércitos austrohúngaros arrollaron a los italianos en Caporetto. Entonces, Marco Sanguineri, el abuelo de Fuensanta, había reunido a la familia e informado con voz grave y serena que había tomado la decisión de emigrar a América junto a su esposa, su hijo Giuseppe, su nuera Isabella y la hija de ambos, Fuensanta, de apenas seis años de edad. No hubo peros ni preguntas. Dos meses después, arribaron a Maracaibo y, desde entonces, la chiquilla fue educada como venezolana hasta el punto de que su italiano era mediocre. Unos años después, y tras la muerte de Marco, los padres de la chica se mudaron a Caracas donde la fortuna comenzó a sonreír a Giuseppe ya que su negocio de importación de zapatos italianos iba viento en popa.


Google lo traduce al inglés como:
Fuensanta Sanguineri was a graceful and intelligent young man but at twenty years, remained unmarried, a fact that caused amazement among their friends and their parents angry that years ago and they wanted to marry her in a good marriage.

All were born in Padua Sanguineri but the family had moved to Venezuela where Austro-Hungarian forces overran the Italians in Caporetto. Entonces, Marco Sanguineri, el abuelo de Fuensanta, había reunido a la familia e informado con voz grave y serena que había tomado la decisión de emigrar a América junto a su esposa, su hijo Giuseppe, su nuera Isabella y la hija de ambos, Fuensanta, de apenas seis años de edad. Then, Marco Sanguineri, Fuensanta grandfather, had met and informed the family grave and quiet voice that had made the decision to emigrate to America with his wife, his son Giuseppe, his daughter Isabella and daughter, Fuensanta , only six years old. No hubo peros ni preguntas. No buts or questions. Dos meses después, arribaron a Maracaibo y, desde entonces, la chiquilla fue educada como venezolana hasta el punto de que su italiano era mediocre. Two months later, arrived in Maracaibo and, since then, the Venezuelan girl was raised as to the extent that his Italian was mediocre. Unos años después, y tras la muerte de Marco, los padres de la chica se mudaron a Caracas donde la fortuna comenzó a sonreír a Giuseppe ya que su negocio de importación de zapatos italianos iba viento en popa. A few years later, after the death of Marco, the girl's parents moved to Caracas where fortune began to smile as her business Giuseppe import of Italian shoes was booming.



Que presenta segmentos bien traducidos y otros bastante pobres. Pero como antes se ha señalado, si un inglés no sabe nada de español, esta traducción le servirá de mucho. Puede decirse, en cierta medida, que la valoración de la traducción depende del conocimiento del idioma que tenga el usuario.

Worldlingo


Que podemos encontrar
aquí


Si lo alimentamos con este texto en inglés:
The Big Bang: not the best name for a theory, but its what we're stuck with. If we trace back the observed expansion of the universe, we find that the universe has a finite age, one defined by the point at which the universe has an infinite energy density. The theory we have for the expansion can only approach this point. As we go back in time, the conditions of the universe go beyond the limits of our knowledge; we can talk about a bang, but we can only study its aftermath.

The basic theory for cosmological expansion is quite simple: a uniform universe is expanding away from an initial state of infinite density. At a given time after the birth of the universe, every observer in the universe sees the objects in the universe rushing away at the same rate as for every other observer. So, at a given time, every observer also sees the same local density of matter.


El resultado en español es:
La explosión grande: no el mejor nombre para una teoría, pero su con qué nos pegan. Si remontamos detrás la extensión observada del universo, encontramos que el universo tiene una edad finita, uno definido por el punto en el cual el universo tiene una densidad infinita de la energía. La teoría que tenemos para la extensión puede acercar solamente a este punto. Mientras que vamos detrás a tiempo, las condiciones del universo van más allá de los límites de nuestro conocimiento; podemos hablar de una explosión, pero podemos estudiar solamente sus consecuencias.

La teoría básica para la extensión cosmológica es absolutamente simple: un universo uniforme se está ampliando lejos de un estado inicial de la densidad infinita. En un momento dado después del nacimiento del universo, cada observador en el universo ve los objetos en el universo que acomete lejos en la misma tarifa que para cada otro observador. Así pues, en un momento dado, cada observador también ve la misma densidad local de la materia.



que se entiende pero es gramaticalmente bastante incorrecta.



PROMPT


Que puede encontrarse
aquí



Alimentando el programa con el mismo texto del relato anterior, la traducción lograda ahora es mucho mejor:
Fuensanta Sanguineri was an attractive and intelligent young woman but, at his twenty-five years, it was remaining single, fact that was causing astonishment between his friends and annoyance to his parents that was already doing years that wanted to marry it in a profit marriage.

The Sanguineri were native to Padua but the family had moved to Venezuela when the Austro-Hungarian armies wound the Italians in Caporetto. Then, Marco Sanguineri, the grandfather of Fuensanta, had assembled the family and informed with serious and serene voice that it had taken the decision to emigrate to America along with his wife, his son Giuseppe, his daughter-in-law Isabella and the daughter of both, Fuensanta, of only six years of age. There was not peros you nor ask. Two months later, they arrived to Maracaibo and, since then, the small girl was educated as Venezuelan up to the point of which his Italian was mediocre. A few years later, and after the Frame death, the parents of the girl changed Caracas where the fortune began to smile at Giuseppe since his business of import of Italian shoes was going well.


Systran


Una demo puede hallarse
aquí




El mismo fragmento se traduce ahora por:
Fuensanta Sanguineri was an attractive young person and intelligent but, to its twenty-five years, she remained unmarried, fact that astonishment between its friendships caused and anger to its parents who already years ago they wished to marry it in a benefit marriage.

The Sanguineri were native of Padua but the family had moved to Venezuela when the Austrohungarian armies coiled to the Italians in Caporetto. Then, Marco Sanguineri, the grandfathers of Fuensanta, had reunited to the informed family and with serious and calm voice that had made the decision to emigrate to America next to its wife, her son Giuseppe, his daughter-in-law Isabella and the daughter of both, Fuensanta, of hardly six years of age. There were peros nor no questions. Two months later, arrived at Maracaibo and, since then, the child was educated like Venezuelan until the point of which his Italian was mediocre. Some years later, and after the death of Marco, the parents of the girl moved to Caracas where the fortune began to smile to Giuseppe since its business of import of Italian shoes went tailwind.


que en mi opinion no alcanza el nivel de la anterior traducción.



to be continued…….

(el siguiente capítulo de este enlace puede leerse en este enlace)