29/8/10

¿Cuán ingente es la labor de digitalización?




En otras ocasiones se ha señalado que, hoy por hoy, cuando se habla de literatura digital se habla, en realidad, de literatura digitalizada. Dentro de este campo hay varios proyectos que están intentando grabar en ficheros electrónicos los libros existentes en papel, particularmente GoogleBooks o Europeana. Pero, ¿cuán ingente es la tarea de digitalizar todo el acerbo literario del mundo? En un reciente artículo de Leonid Taycher se estima que existen unos 130 millones de libros a digitalizar. Para mí ha sido una sorpresa esta cantidad ya que se me antoja pequeña asumiendo que estamos hablando de diez siglos de libros en todo el planeta. En cualquier caso, siendo grande este número no parece que sea especialmente alto para los medios modernos de digitalización. No me refiero al escaneado por fuerza bruta que genera textos no formateados, sin metadatos, difícilmente catalogables, de dudosa calidad y no editables (aunque con un buen sistema OCR quizá podrían llegar a serlo) que con las máquinas de nueva generación podrían fotografiarse a muy alta velocidad. Pero hablando de textos digitalizados con calidad y plena editabilidad, la cifra no parece asombrosa.


En este momento, GoogleBook tiene en catálogo unos 7 millones de libros (con un objetivo a corto plazo de los 15 millones) mientras que Europeana alcanza el millón.



1 comentario: