7/4/20

Corpa de Internet





La web TenTen, de Lexical Computing Ltd,  incluye un enorme conjunto de corpa lingüísticos en distintos idiomas, entre los que se encuentra el español, subdivido en dos corpa, uno para la Península ibérica y otro para Hispanoamérica.

Se trata de una base de datos de textos de internet, de un volumen muy importante, filtrado para evitar repeticiones y con una amplia y rica anotación de metadatos que permiten realizar todo tipo de búsquedas, comparaciones y manipulaciones del contenido.

Para acumular datos, el sistema dispone de un robot buscador que, dependiendo del idioma, analiza las webs e informaciones (webpages, informes, diarios, reportes, etc.) dadas en alta en países con dicho idioma como oficial o dominante. Se extraen, entonces, sólo los párrafos lingüísticas, eliminando elementos multimedia, todas las instrucciones HTML y javascript,  o palabras aisladas. Luego, una vez que se tienen las frases que interesan, se categoriza cada palabra individualmente y se lematiza, añadiéndole los metadatos necesarios.

Para sacar el máximo provecho de los corpa, los buscadores, analizadores y comparadores son muy potentes.

Además de los corpa en español, existen otros tan amplios o más en inglés, chino, francés, coreano, japonés, árabe, alemán, italiano, portugués y ruso, entre otros, hasta 35 idiomas. Todo este ingente material de varios miles de millones de datos es accesible desde Sketch Engine. El objetivo es llegar a los diez mil millones de datos.







No hay comentarios:

Publicar un comentario