“Reading the First Books” se une con eMOP

Ocular, el sistema de transcripción utilizado por el proyecto Reading the First Books, se desarolló como un prototipo experimental. Una de nuestras metas fue facilitar el uso de Ocular a través de un proceso de trabajo que mejoraría la interfaz de usuario, la interacción con el sistema y la visualización de los resultados.

Para lograr esta meta, colaboramos con el Early Modern OCR Project (eMOP) [proyecto de ROC para la temprana edad moderna] de Texas A&M University. eMOP fue financiado inicialmente por una beca del Mellon Foundation en 2012 y ha creado un grupo de herramientas digitales para transcribir, evaluar, y mejorar la transcripción automática de los libros de la temprana edad moderna. Este proyecto ha logrado transcribir casi 45 millones de páginas de textos y datos sacados del Early English Books Online, Eighteenth Century Collections Online y otras colecciones.

Screen shot of the eMOP dashboard, showing options for languages and fonts, as well as a list of early Mexican books.

Libros de los Primeros Libros en el panel de control de eMOP.

Un resultado del proyecto de eMOP fue el desarrollo de un proceso de trabajo para la transcripción automática que une los sistemas de ROC (reconocimiento óptico de caracteres) con las herramientas para el preprocesamiento, el postprocesamiento y la evaluación del texto. Muchas de estas herramientas han sido desarrolladas por eMOP y se han unido en un panel de control que es fácil de usar. Integramos el programa de Ocular en el panel de control de eMOP para mejorar la accesibilidad al sistema y tomar ventaja de las herramientas de eMOP dedicadas al postprocesamiento y evaluación de datos.

Durante un período de tres meses, el equipo de eMOP (Matt Christy, Trey Dockendorf y Liz Grumbach) trabajó conmigo y Dan Garrette (un desarrollador de Ocular) para integrar los sistemas. Fue necesario modificar a Ocular y hacerlo más fácil e intuitivo de usar. Por ejemplo, tuvimos que facilitar el acceso y entendimiento de los datos de salida. También fue necesario cambiar la infraestructura de eMOP y agregar aplicaciones como la utilización de fuentes e idiomas variables, y una etapa de entrenamiento antes del proceso de transcripción.

Transcripciones automáticas de un libro antiguo mexicano, hecho por eMOP en XML.

Transcripciones automáticas de un libro antiguo mexicano, producidas en XML usando eMOP.

En mayo, producimos las primeras transcripciones usando Ocular en la interfaz de eMOP. Probamos la herramienta con seis páginas de un libro escrito en Español, Latín y Nahuatl. El systema produce transcripciones en texto sin formato y en XML (usando el esquema de ALTO desarrollado por el Library of Congress) para preservar datos como la posición de caracteres en la página o el idioma de cada palabra. Se produce una versión diplomática y otra normalizada (es decir modernizada) de cada transcripción. [Consulta un artículo sobre las transcripciones modernizadas (in English)].

Aunque estábamos contentos por haber logrado producir transcripciones, todavía tenemos mucho trabajo que hacer antes de empezar el proceso de transcribir libros enteros. En el proceso de probar estas nuevas herramientas, descubrimos incompatibilidades y nuevos errores en eMOP y Ocular. Estamos trabajando con Bryan Tarpley, nuevo miembro del equipo de eMOP, para resolver estas dificultades. También tenemos que afinar los parámetros de los documentos en la colección de los Primeros Libros y seguir modificando los datos lingüísticos y ortográficos para los siete idiomas en el corpus.

Ocular y eMOP estan disponibles en GitHub pero el proceso de instalación requiere un poco de conocimiento técnico. Esperamos que otros proyectos podrán colaborar con eMOP y tomar ventaja de las herramientas que ofrece. En fin, futuras colaboraciones con eMOP podrán mejorar la accesibilidad y precisión de transcripciones automáticas de los libros antiguos de America Colonial.

 

Tagged with: , , , ,