El nuevo sistema, Inksight, pretende esto: que el texto digital que aparece en pantalla como resultado del escaneo del texto original, se muestre como si uno mismo lo hubiera escrito sobre la pantalla.
Mientras que un OCR permitiría transcribir la escritura a un documento de texto, el nuevo sistema captura los documentos escritos a mano como una colección de trazos, de modo que es posible reproducirlos posteriormente de la misma forma, con nuestra propia letra, para que pueda ser editada libremente a mano de una manera más natural. Permite al usuario crear documentos con un aspecto realista que captura su propio estilo de escritura a mano, en lugar de simplemente una colección de texto.
Por supuesto, el sistema incorpora un OCR para "saber" qué palabra es, pero además, añade un modelo de IA para convertirlas en trazos. Asimismo, se combinan productos ya disponibles como el codificador ViT y el codificador-decodificador mT5.
A todo este proceso, los autores lo denominan "desrenderización".
Si bien el concepto fundamental de la "desrenderización" se antoja sencillo (entrenar un modelo que genera representaciones de tinta digital a partir de imágenes de entrada), la implementación práctica de imágenes de entrada arbitrarias presenta dos desafíos importantes:
- los datos supervisados disponibles para el entrenamiento son muy limitados. No hay bases de datos de escrituras emparejadas con las imágenes correspondientes.
- Escalabilidad a imágenes de gran tamaño: El modelo debe manejar de forma eficaz imágenes de entrada arbitrariamente grandes con diferentes resoluciones y cantidad de contenido.
Para solventar estos inconvenientes, los autores han desarrollado un método que implica "enseñar a escribir" a la red. Existe, pues, una configuración de entrenamiento multitarea que combina tareas de reconocimiento y de "derenderización". Esto permite que el modelo generalice la "derenderización" con varios estilos de imágenes como entrada, e inyecta al modelo tanto la comprensión semántica como el conocimiento de la mecánica de la escritura de texto escrito a mano. Este "aprender a leer" mejora la capacidad del modelo para localizar y extraer con precisión los elementos textuales de las imágenes. y el "aprender a escribir" garantiza que la representación vectorial resultante, la tinta digital, se alinee estrechamente con el enfoque humano típico de la escritura en términos de dinámica física y orden de los trazos.
El entrenamiento de la red comprende cinco tipos de tareas diferentes. Las dos primeras tareas son tareas de "derenderizado" (es decir, generan una salida digital). Una utiliza solo una imagen como entrada y la otra utiliza tanto una imagen como el texto que la acompaña que ha sido reconocido por el modelo de OCR. Las siguientes dos tareas son de reconocimiento y producen salida de texto, la primera de las cuales aprovecha imágenes reales y la segunda, sintéticas. Por último, una quinta tarea es una combinación de reconocimiento y "derenderización", por lo tanto, una tarea mixta con salida de texto y tinta.
En el entrenamiento de la red neuronal, entonces, se emparejan imágenes de texto con su codificación escaneada OCR correspondiente. La tinta digital se muestrea a partir de trayectorias de escritura en tiempo real y, posteriormente, se representa como una secuencia de trazos. Cada trazo está representado por una secuencia de puntos, obtenidos mediante muestreo de la trayectoria de escritura o dibujo a una velocidad constante (por ejemplo, 50 puntos por segundo). La imagen correspondiente se crea renderizando la tinta, creando un mapa de bits a una resolución preespecificada. Esto crea una correspondencia píxel-trazo, que es un precursor de los pares de entrada-salida del modelo.
Otro paso necesario, y que es único de este modelo, es el "tokenizador de tinta", que representa los puntos en un formato que es amigable con un modelo grande de lenguaje (LLM). Cada punto se convierte en dos tokens, uno que codifica sus coordenadas x e y. La secuencia de fichas para esta tinta comienza con b, que significa el comienzo del trazo, seguido de las fichas para las coordenadas de los puntos muestreados.
El artículo técnico completo puede leerse desde este enlace.
0 comentarios :
Publicar un comentario