UT Shield

Reading the First Books

The University of Texas at Austin

Multilingual, Early-Modern OCR for Primeros Libros

  • About
    • Ocular FAQs
    • Project Team
  • Blog
  • Symposium
    • Venue Information
  • Publications
  • Links

August 5, 2017, Filed Under: Events, News

Looking Back on the Reading the First Books Symposium

As the “Reading the First Books” project draws to a close this fall, we wanted to take a moment to reflect on the symposium celebrating the project that was held at LLILAS Benson at the University of Texas at Austin on May 30, 2017. The First Books project began in 2015 as an effort to develop tools and resources for the automatic transcription of early colonial printed books. The day-long symposium brought together scholars, librarians, developers, and students to discuss the project’s accomplishments and challenges, the future of the digital materials it developed, and how digital scholarship will facilitate further engagement with colonial Latin American materials more broadly.

Tweets from the event have been preserved in a Storify and under #FirstBooksDH. Slides summarizing the project are available online, and readers are invited to view sample transcriptions from the First Books project.

The symposium featured two keynote addresses and three roundtables addressing the developing field of digital scholarship and colonial Latin American studies. Brook Danielle Lillehaugen, Assistant Professor of Linguistics at Haverford College, gave the opening keynote address on the promise of digital scholarship to increase access, inclusion, and opportunity in the study of indigenous language texts. Drawing from her experience as a linguist developing a digital corpus of Colonial Zapotec texts for the NEH-funded Ticha project at Haverford, Lillehaugen discussed how access to digital indigenous texts can be a form of linguistic activism. She illustrated how digital projects can serve as opportunities to co-learn and to engage with the expertise of stake holding communities. She also described the importance of institutional support and cross-departmental collaboration for sustaining digital humanities projects.

Taylor Berg-Kirkpatrick, Assistant Professor of Computer Science at Carnegie Mellon University, gave the closing keynote. As the creator of Ocular, the OCR software at the center of the First Books project, Berg-Kirkpatrick provided insights on some of the essential programming frameworks behind Ocular and discussed how Ocular makes the unsupervised analysis of Early Modern documents possible. He also described how the development of Ocular fits with broader research concerns in the fields of natural language processing and machine learning, showing how similar principles can be applied to the automation of sound transcription and of bibliographical analysis.

A central goal of the symposium was to bring to the fore the collaborative work of librarians, developers, and researchers on the First Books project. A roundtable on lessons learned from the project featured the ways in which interface development, data management, and web display have all been fundamental facets of the project that have depended on guidance from information professionals at the University of Texas Libraries (UTL), the Benson Latin American Collection, and the Initiative for Digital Humanities, Media, and Culture (IDHMC) at Texas A&M University.

The final two roundtables showcased a selection of digital scholarship projects engaging with Latin American colonial material and a discussion concerning the role of digital scholarship in graduate student research. The Digital Scholarship Panel highlighted projects ranging from online dictionaries and digital repositories to research in bibliography and machine learning, with an emphasis on the risks and rewards of collaboration across disciplinary and national borders. Some of the institutions and projects featured included the Wired Humanities Projects based at the University of Oregon, bibliographic research at the John Carter Brown Library, and the innovative digital projects developed at the Instituto de Investigaciones Bibliográficas at the Universidad Nacional Autónoma de México (UNAM). While many of the speakers spoke positively about the utility of digital resources in advancing scholarly research, others warned about the ethical concerns of creating and transforming digital resources that are also cultural heritage.

The Graduate Student Roundtable brought together students from an array of fields including literature, colonial studies, indigenous studies, religious studies, and information studies to describe their experiences with digital scholarship. A take-away from this discussion was that in order to support graduate student interested in digital scholarship, libraries and writing centers can lead the way in helping students access resources to develop the technical skills necessary for integrating digital tools into their research projects.

The First Books symposium provided a productive, multi-institutional space to discuss the developing field of “digital scholarship and colonial Latin American studies” in its own right. One central outcome of the symposium was to bring together a community of practitioners to consider the role of transnational collaboration, multilingual data curation, and digital scholarship in the field of colonial Latin American Studies. We hope that this conversation continues well beyond this symposium and inspires other collaborative, interdisciplinary projects in the field.

November 1, 2016, Filed Under: News

Reading the First Books: Annual Report

Normalized transcriptions, eMOP integration, XML, and indigenous language transcription: here’s a report on where we’re at one year into the Reading the First Books project! [Español]

Normalized Transcriptions

Tools for automatically transcribing printed books generally produce “diplomatic transcriptions”: that is, transcriptions which preserve the spelling and punctuation of the original text.

But many users of digital texts prefer a normalized transcription, where the spelling is more consistent, and shorthands have been expanded. Normalization helps with searching, and with reading. It also aids more complex forms of digital analysis like lemmatization and parsing, which in turn help with topic modeling and visualization.

So we built an extension of Ocular that jointly models normalized and diplomatic transcriptions. Every time it transcribes a text, it transcribes it both in modern and historical form. And it does this by learning the differences on its own, and then applying them to its transcription.

That means Ocular can “normalize” text in any language for which we have data. And the computational linguists behind Ocular – that’s Taylor Berg-Kirkpatrick and Dan Garrette  – are working to make the “normalization” system better, so historians can access better normalized versions of historical texts.

[Read our report on normalized transcription.][Español]

eMOP Integration and Primeros Libros Transcription

The Ocular prototype, the tool we use to transcribe texts, works best on a few books at a time – not so great for the Primeros Libros corpus and other large collections of texts.

So we partnered with Texas A&M University to manage our corpus and integrate it into the Early Modern OCR Project (eMOP).

With the support of Anton DuPlessis, one of the leaders of the Primeros Libros project (and a librarian at TAMU), we were able to process many of the books in the collection and put them into a structured database.

We then worked with our collaborators at the IDHMC (Bryan Tarpley, Matt Christy, Trey Dockendorf, and Liz Grumbach) to integrate Ocular into eMOP.

eMOP was designed to transcribe large collections of texts, like Early English Books Online, but it was initially built to be used with Tesseract, Google’s system for automatic transcription.

Now we can use Ocular through the eMOP interface, meaning that we can more easily manage and transcribe large amounts of data. And you can too! The whole thing (eMOP and Ocular) is available via GitHub, though a better approach is to collaborate with the IDHMC directly.

[Read our report on eMOP integration.][Español]

Better XML

Ocular was first designed to output plain text transcriptions: just the words, and nothing but the words.

With the help of Melanie Cofield, metadata expert at UT Libraries, we’ve extended Ocular so it outputs XML using the Library of Congress’s ALTO schema. ALTO was designed specifically for automatic transcriptions, and it will make it easier for us to display the transcribed text alongside scanned images on the Primeros Libros website. It also preserves information about the transcription, like system parameters.

But don’t worry! Ocular still outputs plain-text transcriptions, and we’ll be making those available for download. So if you want to do data analysis, you won’t be stripping metadata from our transcribed files.

Indigenous Language Transcription

When we started this project, indigenous language transcription was one of our top priorities. In fact, it was Ocular’s failure to transcribe Nahuatl well that inspired the project.

But we’ve found indigenous language transcription to be difficult, especially for languages that aren’t widely available online. To transcribe texts we need to build language models, and language models require examples of what language is “supposed” to look like.

With the help of Stephanie Wood, we were able to build a collection of Nahuatl transcriptions. Historians sent us archival materials and books that they had painstakingly transcribed into Word documents or text files. We kept the transcriptions private, but the statistical analysis of the transcriptions feeds our system, enabling us to transcribe books in Nahuatl.

But what about the other languages we’re working with? We have struggled to build collections of Zapotec, Mixtec, Purépecha, and Huastec, meaning that our system is still ineffective when it comes to transcribing documents in those languages.

What’s Next?

Our new research assistant, María Victoria Fernández, will be leading us through the next stage of the First Books project. By the end of the coming year, we expect to have transcribed the entirety of the Primeros Libros corpus, to integrate those transcriptions into the website, and to make them available for analysis. Stay tuned to the First Books project website to follow our progress.

We’ll also be hosting a workshop to discuss the future of automatic transcription for historical texts, and the significance of our project for colonial Latin American research. Keep an eye out for more information!

Get Involved

Want to get involved in the First Books project? There’s so much you can do:

  • Help us build our indigenous language corpora!
    Send us anything you’ve ever written in Nahuatl, Zapotec, Mixtec, Huastec, or Purépecha. This could be modern poetry or prose, or transcriptions of archival records. We can’t use PDFs, but Word, RTF, TXT, or XML documents all help!  Remember that we will never share these documents with anyone, and we won’t read them ourselves. It’s okay if they’re not perfect. They’re data for our models, and they’ll help us make indigenous language transcription better.
  • Help us make Ocular better!
    Are you a computer scientist, programmer, digital humanist, or computational linguist? Ocular is freely available on GitHub, and it could use your help! We’d love for Ocular to be able to output TEI-encoded text. We’d love to see if it works on non-Romance languages like Arabic. And we’d love to see someone improve the line-extraction system, a pre-processing program that cuts the page into individual lines.
  • Try out Ocular on your own texts!
    Are you a historian with scanned copies of historical books? We can work with you to automatically transcribe scanned documents from any era (pre-20th century is best) and in any language that uses Latin script (Ocular should work on all character-based languages, but we haven’t tried it yet). Get started on GitHub or contact us for guidance (halperta@gmail.com).

November 1, 2016, Filed Under: Español, News, Research

Reporte Anual del Proyecto “Reading the First Books”

Transcripción normalizada, integración con eMOP, XML, y transcripción de lenguas indígenas: aquí se presenta un reporte de lo que se ha cumplido durante el primer año del proyecto Reading the First Books. [English]

Transcripciones Normalizadas

Los programas digitales para transcribir libros impresos automáticamente generalmente producen “transcripciones diplomáticas”: es decir, transcripciones que preservan la ortografía y puntuación del texto original.

Pero muchos usuarios de textos digitales prefieren transcripciones normalizadas, donde la ortografía es más consistente y las abreviaturas han sido ampliadas. La normalización facilita la búsqueda y la lectura de textos; también ayuda con formas más complejas de análisis digital como la lematizacíon y el analísis sintáctico, los cuales ayudan a modelar los temas y a su visualización.

En consecuencia, hemos creado una extensión de Ocular que modela transcripciones normalizadas y diplomáticas. Cada vez que se transcribe un texto, Ocular produce el texto en su forma moderna e histórica. Esto lo hace aprendiendo por si mismo las diferencias entre las transcripciones y aplicándolas a su transcripción.

Esto significa que Ocular puede “normalizar” cualquier texto en cualquier lengua de la que tengamos datos. Y los lingüístas computacionales que crearon Ocular, Taylor Berg-Kirkpatrick y Dan Garrette, están trabajando para mejorar el sistema de normalización para que los historiadores tengan acceso a mejores versiones normalizadas de textos históricos.

[Lea nuestro reporte sobre transcripción normalizada] [Inglés]

Integración de eMOP y Transcripción de la colección Primeros Libros

El prototipo de Ocular, el programa que usamos para transcribir textos, funciona mejor cuando se usa con pocos libros a la vez. Esto no es práctico para una colección tan extensa como los Primeros Libros u otras colecciones grandes de textos.

Para resolver este problema, trabajamos con Texas A&M University (TAMU) para manejar e integrar nuestra colección de textos al proyecto Early Modern OCR (eMOP).

Con el apoyo de Anton DuPlessis, uno de los directores del proyecto Primeros Libros y bibliotecario en TAMU, hemos podido procesar e incorporar la gran mayoría de los libros de esta colección a una base de datos.

Después de crear esta base de datos, trabajamos con nuestros colegas de la Iniciativa para Humanidades Digitales, Medios de Comunicación y Cultura–IDHMC (Bryan Tarpley, Matt Christy, Trey Dockendorf, and Liz Grumbach) para integrar Ocular al eMOP.

El eMOP fue diseñado para transcribir grandes colecciones de textos, como “Early English Books Online,” usando Tesseract, el sistema de transcripción automática de Google.

Ahora podemos usar Ocular empleando la interfase de eMOP. Esto significa que podemos manejar y transcribir grandes cantidades de datos más fácilmente. Y usted también podrá! Tanto eMOP como Ocular se pueden accesar via GitHub, aunque una mejor aproximación sería colaborar con IDHMC directamente.

[Lea nuestro reporte sobre la integración con eMOP.] [Inglés]

Mejor XML

Ocular fue diseñado para producir transcripciones en texto sin formato: solamente las palabras y nada más que las palabras.

Con la ayuda de Melanie Cofield, experta en metadatos en UT Libraries, hemos ampliado Ocular para producir XML usando el esquema ALTO de la Biblioteca del Congreso. ALTO fue diseñado específicamente para transcripciones automáticas, y facilitará el proceso para mostrar los textos transcritos al lado de las imágenes escaneadas en la página web del proyecto Primeros Libros. También preserva la información sobre la transcripción, como parámetros del sistema.

¡Pero no se preocupe! Ocular todavía produce transcripciones en texto sin formato, y le aseguramos que podrá descargar estos archivos. Si usted quiere hacer análisis de datos, no tendrá que extraer metadata de nuestros archivos transcritos.

Transcripción de Lenguas Indígenas

Cuando comenzamos este proyecto, una de las prioridades fue la transcripción de lenguas indígenas. De hecho, el fracaso en el uso de Ocular para transcribir Nahuatl fue lo que inspiró este proyecto.

Pero hemos encontrado que la transcripción de lenguas indígenas es difícil, especialmente para lenguas que no están ampliamente disponibles en la web. Para poder transcribir textos, necesitamos construir modelos de lenguaje y estos modelos requieren ejemplos de cómo una lengua normalmente se representa visualmente.

Con la ayuda de Stephanie Wood, hemos podido construir una colección de transcripciones en Nahuatl. Los historiadores nos enviaron materiales y libros del archivo que ellos han transcrito con gran esfuerzo a documentos de Microsoft Word o archivos de texto. A ellos les aseguramos que estas transcripciones se mantendrían privadas y que sólo se usarían para el análisis estadístico que alimentaría nuestro sistema lo que ha permitido la transcripción de libros en Nahuatl.

¿Y que se puede decir sobre las otras lenguas indígenas con las cuales estamos trabajando? Nos ha costado mucho crear colecciones en Zapotec, Mixtec, Purépecha y Huastec, por ello, nuestro sistema no es eficaz en la transcripción de documentos en estas lenguas.

Siguientes Pasos

Nuestra nueva asistente de investigación, María Victoria Fernández, nos va a dirigir en la siguiente etapa del proyecto Reading the First Books. Para el final del próximo año, esperamos haber transcrito toda la colección de Primeros Libros y haber incorporado estas transcripciones a la página web y hacer disponible el acceso para su análisis. Usted se puede mantener al tanto de nuestro progreso a través de la página web del proyecto Reading the First Books.

También vamos a organizar un taller para discutir el futuro de la transcripción automática de textos históricos y el significado de nuestro proyecto para estudios sobre el período colonial en Latinoamérica. ¡Manténgase al tanto de nuestro proyecto!

Cómo nos puede ayudar

¿Quiere participar en el proyecto First Books? Hay tanto que puede hacer:

  • ¡Ayúdenos ampliar nuestra colección de lenguas indígenas! Envíenos cualquier texto que haya escrito en Nahuatl, Zapoteco, Mixteco, Huasteco, o Purépecha. Esto puede ser poesía o prosa contemporánea, o transcripciones de documentos históricos. No podemos utilizar PDFs pero sí documentos en Word, RTF, TXT o XML, ¡todo nos ayudará! Recuerde que nunca compartiremos sus documentos y que nosotros tampoco los leerémos. Sus documentos no tienen que ser perfectos. Se utilizarán como datos para nuestros modelos computacionales, y nos ayudarán a mejorar el proceso de transcripción de lenguas indígenas.
  • ¡Ayúdenos a mejorar Ocular! ¿Eres experto en computación, programación o lingüística computacional? Ocular está disponible gratuitamente en GitHub y ¡usted puede ayudar a mejorarlo! Nos gustaría expandir las capacidades de Ocular para crear textos codificados en TEI. Nos encantaría comprobar si también funciona con lenguas no romances como el Árabe, y también mejorar el sistema para extraer líneas, un programa de pre-procesamiento que corta las páginas en líneas individuales.
  • ¡Pruebe Ocular con sus propios textos! Si usted es un historiador con copias escaneadas de libros antiguos, podremos trabajar con usted para transcribir automáticamente documentos escaneados de cualquier época (pre-siglo XX es mejor) y en cualquier lengua que use el alfabeto latino. (Ocular debe funcionar con todas las lenguas basadas en caracteres, pero no lo hemos comprobado todavía. Comienze con GitHub o contáctenos directamente para ayudarle (halperta@gmail.com).

Traducido por María Victoria Fernández.

  • 1
  • 2
  • 3
  • 4
  • Next Page »
National Endowment for the Humanities
LLILAS Benson Latin American Studies and Collections

University of Texas Libraries
Initiative for Digital Humanities, Media, and Culture

UT Home | Emergency Information | Site Policies | Web Accessibility | Web Privacy | Adobe Reader

© The University of Texas at Austin 2021

  • UT Austin
  • UT Blogs
  • Log in
  • About
    • Ocular FAQs
    • Project Team
  • Blog
  • Symposium
    • Venue Information
  • Publications
  • Links