El acadio, una lengua semítica que hablaron en el segundo milenio antes de Cristo, asirios y babilonios, ha llegado hasta nosotros en multitud de tablillas de barro, escritas con con alfabeto cuneiforme que se descifró entre los siglos XVIII y XIX. Por lo general, se trata de informes comerciales o administrativos que, no obstante, nos ofrecen mucha información de la vida de aquellas sociedades. Sólo en las tablillas de arcilla, sin contar las inscripciones en piedra, hay más de 600.000 elementos con unos 10 millones de palabras, muchas de las cuales no están aún catalogadas y traducidas.
Sin embargo, a causa del tiempo, muchas de estas tablillas están rotas o deterioradas, lo que obliga a los especialistas a hacer una labor de reconstrucción lenta y muy laboriosa.
Ahora, un equipo en Israel, bajo la dirección de Ethan Fetaya y Shai Gordin, han aplicado técnicas de machine learning al decodificado de estos textos. Para ello, entrenaron una red neuronal recurrente (RNN) con información de los textos transliterados y digitalizados por humanos de unas 1400 tablillas. En estos catálogos se tiene el texto original, su transliteración y su traducción.
Con este corpus, limitado porque se ha compilado manualmente a lo largo de años y porque los sistemas OCR no funcionan con incisiones cuneiformes, la red neuronal ha sido ya capaz de acertar en el descifrado de nuevas tablillas al 85%. Es decir, que la propuesta que hace la red neuronal sobre lo escrito en una tablilla coincide al 85% con la que hace un experto humano. A medida que aumente el corpus digitalizado, la red podrá aprender más y más, en un proceso presumiblemente acelerado y exponencial.
El artículo técnico completo puede leerse desde este enlace.
No hay comentarios:
Publicar un comentario