5/2/21

Indexación de manuscritos con redes neuronales. El descubrimiento de Australia





Desde hace ya varios años, viene desarrollándose el proyecto Carabela, liderado por Enrique Vidal al frente del equipo del Centro de Investigación de Reconocimiento de Patrones y Tecnología del Lenguaje Humano (PRHLT, en terminología inglesa), de la Universidad de Valencia. Han colaborado estrechamente con el historiador y paleógrafo del Centro de Arqueología Subacuática de Cádiz, Carlos Alonso Villalobos.

El objetivo del proyecto ha sido crear y entrenar un sistema de inteligencia artificial para que sea capaz de "leer" y codificar manuscritos antiguos. Y, en particular, aplicar el sistema a la ingente cantidad de documentación oficial de entre los siglos XV y XVIII, existente en el Archivo General de Indias, decenas de millones de páginas, acumuladas en miles de legajos, que nunca han sido revisadas porque, primero, es un volumen inmenso de información que requeriría muchas vidas para estudiarlo; y, segundo, porque es muy complejo leer esos manuscritos, incluso por humanos con el español como lengua materna.

Estamos acostumbrados a los sistemas de reconocimiento automático de texto, pero estos están preparados por lo general para "entender" textos mecanografiados o impresos, bien formateados y de nuestra época. Sistemas como los habituales OCR.

Sin embargo, leer un manuscrito antiguo es otra cosa mucho más compleja. Reconocer qué letras se han escrito, reconocer cada alógrafo, y de qué palabra se trata es una terea, hasta ahora, de complicada automatización.

En efecto, teneos que tener en cuenta aspectos como:

* Los manuscritos no están bien formateados. Sus líneas son distintas la una de la otra, tienen notas al margen, hay borrones, hay cambios hechos a vuelapluma, cada escritor escribe diferente con letras más o menos grandes, más o menos giradas, más o menos ligadas, más o menos claras según se va cansando, más o menos entendibles (recordemos el viejo chiste de las recetas de los médicos). 

* El propio paso del tiempo hace que los documentos estén llenos de arrugas, rayones, manchas, etc. que el sistema de interpretación del escaneado debe eliminar.

* Durante siglos, los manuscritos se caligrafiaban de manera muy barroca, de modo que cada letra puede estar bastante adornada y, lo que es peor, cada escribano la adornaba de diferente manera.

* El lapso de tiempo que cubren estos documentos hace que el propio idioma haya ido variando de manera importante, tanto en ortografía como en sintaxis. Así, reconocer que una imagen corresponde a una u otra palabra no es evidente. Incluso, hoy en día, es complicado para ciertas palabras. Recordemos, a título de ejemplo, la palabra "cebiche" que se escribe según el lugar como cebiche, ceviche, sebiche o seviche. 

Algunos ejemplos de lo señalado pueden verse incluso en textos perfectamente impresos de la época. ¿La "V", es "v" o es "u"? ¿IESU, es "Jesús" o algo que tiene que ver con el "yeso"? ¿Reconocemos fácilmente a su "Cesárea Majestad? ¿Qué grafía tienen las eses? ¿"oy" - sin hache- es "hoy"?
 


Incluso, estando impresos, no es fácil separar cada palabra:



Todo esto se complica infinitamente cuando el texto es manuscrito, como en esta imagen que los autores del proyecto muestran en este artículo técnico de Lorenzo Quirós, también del equipo de la Universidad de Valencia:







Y eso, que el escribano que redactó este documento era ordenado y limpio. Imaginemos la dificultad con un examen rellenado a mano de cualquier estudiante hoy en día.

El tratamiento de textos manuscritos - Handwritten Text Processing (HTP) -presenta problemas bien conocidos que son separados en tres diferentes campos, llamados en inglés Handwritten Text Recognition (HTR), Keyword Spotting (KWS) e Information Retrieval from Handwritten Documents.

El proyecto Carabela ha logrado crear una red neuronal que no sólo analiza cada "imagen" de letras o palabras sino que realiza asimismo un análisis del formateo y el lay out del documento, facilitando la separación de palabras y ordenamiento de frases.

Los detalles técnicos y matemáticos de cómo se idea y programa la red neuronal pueden leerse en los diversos papers ya publicados por el equipo como este, el citado anteriormente o este otro.

Para enseñar a la red neuronal se utilizaron 557 documentos de los 150.000 analizados. Estos 150.000 son documentos ya digitalizados anteriormente aunque no analizados. En los 557 documentos usados para enseñar al algoritmo, ha sido indispensable la labor del paleógrafo gaditano que ha ido estudiando cada uno de ellos, anotando cada variación, cada forma de decir, cada sinónimo (y, hablando de términos marinos, los sinónimos son muchísimos) o cada datos de interés. Alimentando la red neuronal con esta información, esta ha sido capaz, después, de aplicar las reglas aprendidas al análisis del resto del documentos.

Un objetivo inicial era aplicar el sistema a la detección de información sobre naufragios de los galeones que hacían las rutas de Indias, una información por la que muchos caza tesoros pagarían fortunas y motivo por el cual se mantienen ciertas restricciones de seguridad en el proyecto. Han aparecido ya 150 naufragios no conocidos con anterioridad. 

Pues bien, de esta análisis, y como resultado no esperado, se ha encontrado un texto que parece indicar que los primeros europeos interesados en asentarse en Australia fueron los españoles, muchas décadas antes que el inglés Cook lo hiciera en 1770, tras dos años de navegación. Carabela ha hallado una carta al rey escrita el 10 de junio de 1710 por el jesuita Andrés Serrano, de las misiones de Manila, en el que le informa que va a partir hacia las "islas australes... que son sólo parte de la otra gran tierra austral más al sur", dando luego detalles geográficos que coinciden en lo básico con lo que hoy sabemos ("... la inmensa tierra firme, que llega hasta 34 grados sur y aún se cree que sigue más adelantes hacia el polo Antártico"). Por supuesto, se queja de que no se hayan enviado ya hombres de armas y misioneros para evangelizar a aquellas gentes. Si el rey le hubiera hecho caso, quizá hoy se hablara español en Sidney. 



En realidad, fueron muchos los que navegaron por las aguas de Australia antes de Cook. El holandés Janszoon arribó a las costas australianas en 1606, el mismo año en que los españoles Váez de Torres y Quirós había navegado en la zona intentando encontrar Australia y probablemente divisándola porque Torres pasó por el estrecho de Torres, entre Nueva Guinea y Australia. No será raro, pues, que aparezcan más documentos del siglo XVII que hablen sobre los mares australes. También parece evidente que existiendo en el siglo XVIII tantos datos sobre aquella tierra, las órdenes que Cook recibiera del Almirantazgo inglés fueran la de buscar en el Pacífico sur la "Tierra Australis" de la que tanto se hablaba. No es que se hablara hipotéticamente, es que se conocía su existencia.







0 comentarios :