27/2/14

La Babel de los formatos para libros electrónicos




En varias entradas de este blog hemos comentado la necesidad de estandarizar los formatos electrónicos para que los contenidos puedan ser transportables de manera sencilla entre dispositivos. La proliferación de formatos distintos no tiene sentido y se debe, sobre todo, a razones comerciales que buscan crear ecosistemas cerrados en los que atrapar a los usuarios y a los lectores. Cierto es que existen herramientas para traducir contenidos de un formato a otro pero estas, amén de obligar a un trabajo innecesario y cansino si hay que convertir muchos documentos, siempre presentan deficiencias que hacen que la visualización, finalmente, no sea de alta calidad.
 
La creación de estos contendientes se basan en tomar sólo un subconjunto de todas las características posibles (lo que permite el mensaje de marketing de "especializado en....") o bien, directamente, desarrollar esas características de modo distinto e incompatible.
 
En contra de la lógica técnica, los fabricantes siguen obcecados en crear nuevos y nuevos formatos de modo que, hoy en día, estamos ya inmersos en una torre de Babel digital que, como la bíblica, sólo puede acabar mal.
 
Un breve recorrido por sólo parte de la jungla de formatos y siglas:
 
  • TXT: texto plano en ASCII sin ninguna posibilidad de formatear el contenido por lo que es casi inútil para mostrar literatura o libros electrónicos. Sin embargo, es un recurso inestimable cuando queremos librarnos de todos esos códigos escondidos en un texto que lo hacen ilegible o impresentable en otro sistemas. Se pasa primero a TXT y se empieza de cero con el formato, un gran trabajo, pero al menos tenemos el texto intacto.
  • Doc: el formato más tradicional de un documento en Word de Microsoft. En general, no se visualiza correctamente en un e-reader excepto con ciertas condiciones muy controladas de fuentes, escala y paginación.
  • Docx: el formato de las últimas versiones de Word. En general, no se visualiza correctamente en un e-reader excepto con ciertas condiciones muy controladas de fuentes, escala y paginación.
  • RTF: Formato de texto enriquecido de Microsoft que se visualiza correctamente en procesadores de texto bajo Windows pero no así en otros sistemas y tampoco en e-readers.
  • PDF: Creado por Adobe, es un formato destinado especialmente a la impresión, a que la página impresa aparezca bien presentada y con alta calidad. Ya desde esta idea se puede ver que no es el formato ideal para un libro electrónico en el que no hay páginas sino que texto fluye y se reacomoda en función del zoom, el tamaño de letra y el tamaño de la pantalla. Aún así, casi todos los lectores manejan documentos PDF aunque el resultado puede ser muy malo.
  • HTML: el lenguaje propio de la web. La ventaja es que- en el set básico de instrucciones- todos los dispositivos y navegadores pueden leerlo y presentarlo. Las desventajas son que muchas veces hay instrucciones propietarias que no leen otros sistemas (instrucciones que Internet Explorer, por ejemplo, entiende pero que no lo hacen Safari o Chrome, o viceversa), que la maquetación es muy limitada y que los recursos (fotos, etc) no están incluidos en el mismo archivo.
  • MHT: un HTML que contiene los recursos en un único fichero.
  • CHM: un HTML compilado que permite enlazar varios ficheros HTML en uno sólo. Propio de Microsoft.
  • Ibook: el formato propio de Apple para los libros creados con el Ibooks Autor. Funciona únicamente con OS. Tiene funcionalidades de creación y maquetación de e-books bastante completas, incluyendo interactividad y capacidad de crear contenido enriquecido.
  • Mobi: es el formato utilizado por el Kindle de Amazon y es propio de esa empresa y de sus lectores. Es un formato pensado para leer en e-readers.
  • Mobipocket: =mobi.
  • Pcr: otro formato de Amazon que se utiliza cuando el contenido va protegido con DRM. Si el DRM es distinto del propio de Amazon, el contenido en pcr no puede ser leído ni por el Kindle, es decir hay barreras incluso dentro del mismo ecosistema.
  • Azw: otro de Amazon, también con DRM en general.
  • Topaz: otro formato de Amazon que viene a ser un PDF con capacidad de escalado según la pantalla.
  • Azw3: es un Azw mejorado para permitir la inclusión de elementos multimedia.
  • ePub: creado para ser un estándar multiplataforma, no lo es porque el Kindle no lo lee deliberadamente. Se trata de un formato bien diseñado, adaptado a la lectura de textos en diversas plataformas, y con muchas capacidades aunque no siempre fácil de programar para que el contenido se visualice con calidad.
  • ePub3: la nueva versión mejorada del ePub que permite sincronización de audio y texto, capacidades multimedia, contenidos enriquecidos, anotaciones, etc. Sigue aspirando a ser el estándar mundial y es leído por casi todos los dispositivos. Pero la excepción de Kindle- que tiene una importante cuota de mercado- hace que este estándar sea muy débil y presente muchas dudas de permanencia a largo plazo. Lo natural es que apareciese algún otro formato que uniera lo mejor de mobi y lo mejor de ePub3.
  • FB2: Fictionbook es un formato abierto, creado en Rusia, que a priori facilita su uso en muchas plataformas y su desarrollo por cualquier programador. Diseñado para su uso en e-readers. No acepta DRM lo que hace que las editoriales lo eviten y sea poco utilizado.
  • CBA: un formato diseñado para manejar libros con muchas imágenes, motivo por el cual es ampliamente usado para visualizar cómics.
  • CBZ: un CBA comprimido en ZIP.
  • CBR: un CBA comprimido en RAR.
  • DBT: llamado Daisy es un formato pensado para almacenar audiolibros.
  • Djvu: Dejavu es una alternativa al PDF que no ha tenido mucha difusión.
  • PML: creado por Palm Reader para sus dispositivos.
  • LRF: formato de Sony para sus primeros lectores que ha quedado obsoleto y ya no es soportado por la firma japonesa pero con el que aún hay muchos contenidos circulando por el mundo.
  • LIT: formato del Microsoft Reader que va cayendo en desuso.
  • Daisy: un formato soportado y promovido por el Daisy Consortium y con ciertas capacidades para personas con discapacidades lecto-escritoras que se espera converja con ePub en un futuro.
  • AEH: formato promovido por la firma francesa Archos Diffusion con un DRM propio.
  • IEC62448: un estándar creado por la IEC.
  • PKG: también conocido como Apple Newton, permite unir varios libros en uno y funciona con sistemas Newton. Tiene  muchas capacidades pero su ecosistema es limitado.
  • PS: PostScript, un lenguaje de descripción de página.
  • OXPS: Open XML Paper Specification.

¿Quién da más?


0 comentarios :