UT Shield

Reading the First Books

The University of Texas at Austin

Multilingual, Early-Modern OCR for Primeros Libros

  • About
    • Ocular FAQs
    • Project Team
  • Blog
  • Symposium
    • Venue Information
  • Publications
  • Links

August 24, 2016, Filed Under: Español, Research

“Reading the First Books” se une con eMOP

Ocular, el sistema de transcripción utilizado por el proyecto Reading the First Books, se desarolló como un prototipo experimental. Una de nuestras metas fue facilitar el uso de Ocular a través de un proceso de trabajo que mejoraría la interfaz de usuario, la interacción con el sistema y la visualización de los resultados.

Para lograr esta meta, colaboramos con el Early Modern OCR Project (eMOP) [proyecto de ROC para la temprana edad moderna] de Texas A&M University. eMOP fue financiado inicialmente por una beca del Mellon Foundation en 2012 y ha creado un grupo de herramientas digitales para transcribir, evaluar, y mejorar la transcripción automática de los libros de la temprana edad moderna. Este proyecto ha logrado transcribir casi 45 millones de páginas de textos y datos sacados del Early English Books Online, Eighteenth Century Collections Online y otras colecciones.

Screen shot of the eMOP dashboard, showing options for languages and fonts, as well as a list of early Mexican books.
Libros de los Primeros Libros en el panel de control de eMOP.

Un resultado del proyecto de eMOP fue el desarrollo de un proceso de trabajo para la transcripción automática que une los sistemas de ROC (reconocimiento óptico de caracteres) con las herramientas para el preprocesamiento, el postprocesamiento y la evaluación del texto. Muchas de estas herramientas han sido desarrolladas por eMOP y se han unido en un panel de control que es fácil de usar. Integramos el programa de Ocular en el panel de control de eMOP para mejorar la accesibilidad al sistema y tomar ventaja de las herramientas de eMOP dedicadas al postprocesamiento y evaluación de datos.

Durante un período de tres meses, el equipo de eMOP (Matt Christy, Trey Dockendorf y Liz Grumbach) trabajó conmigo y Dan Garrette (un desarrollador de Ocular) para integrar los sistemas. Fue necesario modificar a Ocular y hacerlo más fácil e intuitivo de usar. Por ejemplo, tuvimos que facilitar el acceso y entendimiento de los datos de salida. También fue necesario cambiar la infraestructura de eMOP y agregar aplicaciones como la utilización de fuentes e idiomas variables, y una etapa de entrenamiento antes del proceso de transcripción.

Transcripciones automáticas de un libro antiguo mexicano, hecho por eMOP en XML.
Transcripciones automáticas de un libro antiguo mexicano, producidas en XML usando eMOP.

En mayo, producimos las primeras transcripciones usando Ocular en la interfaz de eMOP. Probamos la herramienta con seis páginas de un libro escrito en Español, Latín y Nahuatl. El systema produce transcripciones en texto sin formato y en XML (usando el esquema de ALTO desarrollado por el Library of Congress) para preservar datos como la posición de caracteres en la página o el idioma de cada palabra. Se produce una versión diplomática y otra normalizada (es decir modernizada) de cada transcripción. [Consulta un artículo sobre las transcripciones modernizadas (in English)].

Aunque estábamos contentos por haber logrado producir transcripciones, todavía tenemos mucho trabajo que hacer antes de empezar el proceso de transcribir libros enteros. En el proceso de probar estas nuevas herramientas, descubrimos incompatibilidades y nuevos errores en eMOP y Ocular. Estamos trabajando con Bryan Tarpley, nuevo miembro del equipo de eMOP, para resolver estas dificultades. También tenemos que afinar los parámetros de los documentos en la colección de los Primeros Libros y seguir modificando los datos lingüísticos y ortográficos para los siete idiomas en el corpus.

Ocular y eMOP estan disponibles en GitHub pero el proceso de instalación requiere un poco de conocimiento técnico. Esperamos que otros proyectos podrán colaborar con eMOP y tomar ventaja de las herramientas que ofrece. En fin, futuras colaboraciones con eMOP podrán mejorar la accesibilidad y precisión de transcripciones automáticas de los libros antiguos de America Colonial.

 

March 30, 2016, Filed Under: Español, Research

Sistemas nuevos para la transcripción modernizada

[English. Gracias a Ana Cecilia Calle por su ayuda con la traducción al español.]

El propósito del proyecto “Reading the First Books” fue desarrollar e implementar sistemas para la transcripción de impresos antiguos de la Nueva España. Cuando comenzamos el proyecto, uno de los primeros deberes fue preguntarle a los profesores que usan los libros antiguos por el tipo de transcripción que prefieren a la hora de trabajar con estos textos.

Hay dos opciones. La primera, llamada “transcripción diplomática” (diplomatic transcription), preserva las variantes ortográficas de los documentos antiguos como por ejemplo las letras antiguas (como la s larga), la ortografía variable, los acentos ausentes, la abreviatura y las equivocaciones tipográficas. La segunda es llamada la “transcripción normalizada” (normalized transcription), que expande la abreviatura, sustituye las letras antiguas y cambia la ortografía según las normas modernas.

La mitad de los profesores que entrevistamos nos dijeron que preferían la transcripción diplomática “porque las variantes ortográficas pueden contener información de importancia histórica”. La otra mitad preferían la transcripción normalizada “porque se facilita el trabajo de buscar, leer, y analizar el texto.”

Una investigación realizada a través de Twitter confirmó los resultados: el 64% de quienes respondieron preferían ambas transcripciones, la diplomática y la normalizada. Pero es más fácil decirlo que hacerlo. El reconocimiento óptico de caracteres (ROC, OCR, por sus siglas en inglés), que es el proceso que usamos para la transcripción automática de los impresos antiguos, solo produce las transcripciones diplomáticas porque analiza en orden una cadena de caracteres, buscando para cada una la imagen correspondiente en su base de datos. Los sistemas que modernizan textos antiguos, a la vez, son resultado? del posprocesamiento que depende, por un lado, de la precisión del texto ya transcrito y de listas con reglas para reemplazar palabras o frases hechas exclusivamente para el inglés. No existe un sistema que modernice fácilmente el español antiguo y mucho menos el Nahuatl.

Three variations of the text: a digital facsimile of a sixteenth century document, a diplomatic transcription that preserves historical variation, and a normalized transcription that follows modern standards.
Ejemplos de las transcripciones diplomaticas y normalizadas hecho con Ocular.

Por eso fuimos en busca de una solución propia. Modificamos Ocular, nuestro sistema de ROC preferido, para producir automáticamente y simultáneamente tanto las transcripciones diplomáticas como las normalizadas. El resultado de este primer ejercicio, que se publicará en los Procedimientos del NAACL2016, descubre automáticamente los modelos de variaciones ortográficas que aparecen en el texto. Le damos al sistema unos ejemplos de texto moderno, como por ejemplo documentos del Proyecto Gutenberg, y el sistema los usa para identificar diferencias entre el uso moderno del idioma en textos contemporáneos y en documentos antiguos.  [Una descripción técnica.][GitHub]

En el ejemplo aquí, el sistema ha aprendido que cuando hay un tilde sobre una vocal, significa que una m o n ha sido borrada. También reconoce que se puede sustituir la c moderna por la q, o la v por la u y que las palabras apro y uecha son dos partes de la misma palabra (a pesar del guión ausente). Además, el ejemplo deja ver algunos casos en los que Ocular comete errores al permitir contrastar la transcripción con una imagen del original:  por ejemplo, en la transcripción diplomática reconoció en la como p lo que en la imagen del original es una u. .

Table of common characters and their replacements, along with how often they occur and the probability learned by the model for that substitution.
Modelos de la ortografía de la Nueva España identificado  por Ocular. En la columna izquierda están las letras  modernas, seguido por sus equivalentes históricas, la frecuencia del intercambio y su probabilidad.

A pesar de las equivocaciones, creemos que el sistema puede ser útil por varias razones. Primero, la producción simultánea de ambas formas de transcripción mejora la precisión de las dos, porque la versión diplomática se beneficia de la nueva información recogida del texto moderno mientras que la versión moderna se libera de su dependencia de la precisión de una transcripción previa. Además, con la producción simultánea de las dos transcripciones, no es difícil lograr (alcanzar) el ideal de los profesores de una transcripción que preserve variantes idiomáticas y ofrezca al mismo tiempo un texto moderno.

A la vez que analiza los documentos para crear las transcripciones, el sistema aprende los modelos de variantes ortográficas que aparecen en los documentos. Con la preservación de esta información, es posible descubrir información nueva sobre los libros antiguos. Estamos acostumbrados pensar que el ROC es un proceso lento y costoso que retrasa el análisis de los corpus textuales. Pero con sistemas como Ocular, es posible analizar a los documentos antiguos y a la vez producir nuevos recursos accesibles.

National Endowment for the Humanities
LLILAS Benson Latin American Studies and Collections

University of Texas Libraries
Initiative for Digital Humanities, Media, and Culture

UT Home | Emergency Information | Site Policies | Web Accessibility | Web Privacy | Adobe Reader

© The University of Texas at Austin 2021

  • UT Austin
  • UT Blogs
  • Log in
  • About
    • Ocular FAQs
    • Project Team
  • Blog
  • Symposium
    • Venue Information
  • Publications
  • Links