Reading the First Books

Looking Back on the Reading the First Books Symposium

As the “Reading the First Books” project draws to a close this fall, we wanted to take a moment to reflect on the symposium celebrating the project that was held at LLILAS Benson at the University of Texas at Austin on May 30, 2017. The First Books project began in 2015 as an effort to develop tools and resources for the automatic transcription of early colonial printed books. The day-long symposium brought together scholars, librarians, developers, and students to discuss the project’s accomplishments and challenges, the future of the digital materials it developed, and how digital scholarship will facilitate further engagement with colonial Latin American materials more broadly.

Tweets from the event have been preserved in a Storify and under #FirstBooksDH. Slides summarizing the project are available online, and readers are invited to view sample transcriptions from the First Books project.

The symposium featured two keynote addresses and three roundtables addressing the developing field of digital scholarship and colonial Latin American studies. Brook Danielle Lillehaugen, Assistant Professor of Linguistics at Haverford College, gave the opening keynote address on the promise of digital scholarship to increase access, inclusion, and opportunity in the study of indigenous language texts. Drawing from her experience as a linguist developing a digital corpus of Colonial Zapotec texts for the NEH-funded Ticha project at Haverford, Lillehaugen discussed how access to digital indigenous texts can be a form of linguistic activism. She illustrated how digital projects can serve as opportunities to co-learn and to engage with the expertise of stake holding communities. She also described the importance of institutional support and cross-departmental collaboration for sustaining digital humanities projects.

Taylor Berg-Kirkpatrick, Assistant Professor of Computer Science at Carnegie Mellon University, gave the closing keynote. As the creator of Ocular, the OCR software at the center of the First Books project, Berg-Kirkpatrick provided insights on some of the essential programming frameworks behind Ocular and discussed how Ocular makes the unsupervised analysis of Early Modern documents possible. He also described how the development of Ocular fits with broader research concerns in the fields of natural language processing and machine learning, showing how similar principles can be applied to the automation of sound transcription and of bibliographical analysis.

A central goal of the symposium was to bring to the fore the collaborative work of librarians, developers, and researchers on the First Books project. A roundtable on lessons learned from the project featured the ways in which interface development, data management, and web display have all been fundamental facets of the project that have depended on guidance from information professionals at the University of Texas Libraries (UTL), the Benson Latin American Collection, and the Initiative for Digital Humanities, Media, and Culture (IDHMC) at Texas A&M University.

The final two roundtables showcased a selection of digital scholarship projects engaging with Latin American colonial material and a discussion concerning the role of digital scholarship in graduate student research. The Digital Scholarship Panel highlighted projects ranging from online dictionaries and digital repositories to research in bibliography and machine learning, with an emphasis on the risks and rewards of collaboration across disciplinary and national borders. Some of the institutions and projects featured included the Wired Humanities Projects based at the University of Oregon, bibliographic research at the John Carter Brown Library, and the innovative digital projects developed at the Instituto de Investigaciones Bibliográficas at the Universidad Nacional Autónoma de México (UNAM). While many of the speakers spoke positively about the utility of digital resources in advancing scholarly research, others warned about the ethical concerns of creating and transforming digital resources that are also cultural heritage.

The Graduate Student Roundtable brought together students from an array of fields including literature, colonial studies, indigenous studies, religious studies, and information studies to describe their experiences with digital scholarship. A take-away from this discussion was that in order to support graduate student interested in digital scholarship, libraries and writing centers can lead the way in helping students access resources to develop the technical skills necessary for integrating digital tools into their research projects.

The First Books symposium provided a productive, multi-institutional space to discuss the developing field of “digital scholarship and colonial Latin American studies” in its own right. One central outcome of the symposium was to bring together a community of practitioners to consider the role of transnational collaboration, multilingual data curation, and digital scholarship in the field of colonial Latin American Studies. We hope that this conversation continues well beyond this symposium and inspires other collaborative, interdisciplinary projects in the field.

Tagged with: , ,

Reading the First Books: Annual Report

Normalized transcriptions, eMOP integration, XML, and indigenous language transcription: here’s a report on where we’re at one year into the Reading the First Books project! [Español]

Normalized Transcriptions

Tools for automatically transcribing printed books generally produce “diplomatic transcriptions”: that is, transcriptions which preserve the spelling and punctuation of the original text.

But many users of digital texts prefer a normalized transcription, where the spelling is more consistent, and shorthands have been expanded. Normalization helps with searching, and with reading. It also aids more complex forms of digital analysis like lemmatization and parsing, which in turn help with topic modeling and visualization.

So we built an extension of Ocular that jointly models normalized and diplomatic transcriptions. Every time it transcribes a text, it transcribes it both in modern and historical form. And it does this by learning the differences on its own, and then applying them to its transcription.

That means Ocular can “normalize” text in any language for which we have data. And the computational linguists behind Ocular – that’s Taylor Berg-Kirkpatrick and Dan Garrette  – are working to make the “normalization” system better, so historians can access better normalized versions of historical texts.

[Read our report on normalized transcription.][Español]

eMOP Integration and Primeros Libros Transcription

The Ocular prototype, the tool we use to transcribe texts, works best on a few books at a time – not so great for the Primeros Libros corpus and other large collections of texts.

So we partnered with Texas A&M University to manage our corpus and integrate it into the Early Modern OCR Project (eMOP).

With the support of Anton DuPlessis, one of the leaders of the Primeros Libros project (and a librarian at TAMU), we were able to process many of the books in the collection and put them into a structured database.

We then worked with our collaborators at the IDHMC (Bryan Tarpley, Matt Christy, Trey Dockendorf, and Liz Grumbach) to integrate Ocular into eMOP.

eMOP was designed to transcribe large collections of texts, like Early English Books Online, but it was initially built to be used with Tesseract, Google’s system for automatic transcription.

Now we can use Ocular through the eMOP interface, meaning that we can more easily manage and transcribe large amounts of data. And you can too! The whole thing (eMOP and Ocular) is available via GitHub, though a better approach is to collaborate with the IDHMC directly.

[Read our report on eMOP integration.][Español]

Better XML

Ocular was first designed to output plain text transcriptions: just the words, and nothing but the words.

With the help of Melanie Cofield, metadata expert at UT Libraries, we’ve extended Ocular so it outputs XML using the Library of Congress’s ALTO schema. ALTO was designed specifically for automatic transcriptions, and it will make it easier for us to display the transcribed text alongside scanned images on the Primeros Libros website. It also preserves information about the transcription, like system parameters.

But don’t worry! Ocular still outputs plain-text transcriptions, and we’ll be making those available for download. So if you want to do data analysis, you won’t be stripping metadata from our transcribed files.

Indigenous Language Transcription

When we started this project, indigenous language transcription was one of our top priorities. In fact, it was Ocular’s failure to transcribe Nahuatl well that inspired the project.

But we’ve found indigenous language transcription to be difficult, especially for languages that aren’t widely available online. To transcribe texts we need to build language models, and language models require examples of what language is “supposed” to look like.

With the help of Stephanie Wood, we were able to build a collection of Nahuatl transcriptions. Historians sent us archival materials and books that they had painstakingly transcribed into Word documents or text files. We kept the transcriptions private, but the statistical analysis of the transcriptions feeds our system, enabling us to transcribe books in Nahuatl.

But what about the other languages we’re working with? We have struggled to build collections of Zapotec, Mixtec, Purépecha, and Huastec, meaning that our system is still ineffective when it comes to transcribing documents in those languages.

What’s Next?

Our new research assistant, María Victoria Fernández, will be leading us through the next stage of the First Books project. By the end of the coming year, we expect to have transcribed the entirety of the Primeros Libros corpus, to integrate those transcriptions into the website, and to make them available for analysis. Stay tuned to the First Books project website to follow our progress.

We’ll also be hosting a workshop to discuss the future of automatic transcription for historical texts, and the significance of our project for colonial Latin American research. Keep an eye out for more information!

Get Involved

Want to get involved in the First Books project? There’s so much you can do:

  • Help us build our indigenous language corpora!
    Send us anything you’ve ever written in Nahuatl, Zapotec, Mixtec, Huastec, or Purépecha. This could be modern poetry or prose, or transcriptions of archival records. We can’t use PDFs, but Word, RTF, TXT, or XML documents all help!  Remember that we will never share these documents with anyone, and we won’t read them ourselves. It’s okay if they’re not perfect. They’re data for our models, and they’ll help us make indigenous language transcription better.
  • Help us make Ocular better!
    Are you a computer scientist, programmer, digital humanist, or computational linguist? Ocular is freely available on GitHub, and it could use your help! We’d love for Ocular to be able to output TEI-encoded text. We’d love to see if it works on non-Romance languages like Arabic. And we’d love to see someone improve the line-extraction system, a pre-processing program that cuts the page into individual lines.
  • Try out Ocular on your own texts!
    Are you a historian with scanned copies of historical books? We can work with you to automatically transcribe scanned documents from any era (pre-20th century is best) and in any language that uses Latin script (Ocular should work on all character-based languages, but we haven’t tried it yet). Get started on GitHub or contact us for guidance (halperta@gmail.com).
Tagged with: , , ,

Reporte Anual del Proyecto “Reading the First Books”

Transcripción normalizada, integración con eMOP, XML, y transcripción de lenguas indígenas: aquí se presenta un reporte de lo que se ha cumplido durante el primer año del proyecto Reading the First Books. [English]

Transcripciones Normalizadas

Los programas digitales para transcribir libros impresos automáticamente generalmente producen “transcripciones diplomáticas”: es decir, transcripciones que preservan la ortografía y puntuación del texto original.

Pero muchos usuarios de textos digitales prefieren transcripciones normalizadas, donde la ortografía es más consistente y las abreviaturas han sido ampliadas. La normalización facilita la búsqueda y la lectura de textos; también ayuda con formas más complejas de análisis digital como la lematizacíon y el analísis sintáctico, los cuales ayudan a modelar los temas y a su visualización.

En consecuencia, hemos creado una extensión de Ocular que modela transcripciones normalizadas y diplomáticas. Cada vez que se transcribe un texto, Ocular produce el texto en su forma moderna e histórica. Esto lo hace aprendiendo por si mismo las diferencias entre las transcripciones y aplicándolas a su transcripción.

Esto significa que Ocular puede “normalizar” cualquier texto en cualquier lengua de la que tengamos datos. Y los lingüístas computacionales que crearon Ocular, Taylor Berg-Kirkpatrick y Dan Garrette, están trabajando para mejorar el sistema de normalización para que los historiadores tengan acceso a mejores versiones normalizadas de textos históricos.

[Lea nuestro reporte sobre transcripción normalizada] [Inglés]

Integración de eMOP y Transcripción de la colección Primeros Libros

El prototipo de Ocular, el programa que usamos para transcribir textos, funciona mejor cuando se usa con pocos libros a la vez. Esto no es práctico para una colección tan extensa como los Primeros Libros u otras colecciones grandes de textos.

Para resolver este problema, trabajamos con Texas A&M University (TAMU) para manejar e integrar nuestra colección de textos al proyecto Early Modern OCR (eMOP).

Con el apoyo de Anton DuPlessis, uno de los directores del proyecto Primeros Libros y bibliotecario en TAMU, hemos podido procesar e incorporar la gran mayoría de los libros de esta colección a una base de datos.

Después de crear esta base de datos, trabajamos con nuestros colegas de la Iniciativa para Humanidades Digitales, Medios de Comunicación y Cultura–IDHMC (Bryan Tarpley, Matt Christy, Trey Dockendorf, and Liz Grumbach) para integrar Ocular al eMOP.

El eMOP fue diseñado para transcribir grandes colecciones de textos, como “Early English Books Online,” usando Tesseract, el sistema de transcripción automática de Google.

Ahora podemos usar Ocular empleando la interfase de eMOP. Esto significa que podemos manejar y transcribir grandes cantidades de datos más fácilmente. Y usted también podrá! Tanto eMOP como Ocular se pueden accesar via GitHub, aunque una mejor aproximación sería colaborar con IDHMC directamente.

[Lea nuestro reporte sobre la integración con eMOP.] [Inglés]

Mejor XML

Ocular fue diseñado para producir transcripciones en texto sin formato: solamente las palabras y nada más que las palabras.

Con la ayuda de Melanie Cofield, experta en metadatos en UT Libraries, hemos ampliado Ocular para producir XML usando el esquema ALTO de la Biblioteca del Congreso. ALTO fue diseñado específicamente para transcripciones automáticas, y facilitará el proceso para mostrar los textos transcritos al lado de las imágenes escaneadas en la página web del proyecto Primeros Libros. También preserva la información sobre la transcripción, como parámetros del sistema.

¡Pero no se preocupe! Ocular todavía produce transcripciones en texto sin formato, y le aseguramos que podrá descargar estos archivos. Si usted quiere hacer análisis de datos, no tendrá que extraer metadata de nuestros archivos transcritos.

Transcripción de Lenguas Indígenas

Cuando comenzamos este proyecto, una de las prioridades fue la transcripción de lenguas indígenas. De hecho, el fracaso en el uso de Ocular para transcribir Nahuatl fue lo que inspiró este proyecto.

Pero hemos encontrado que la transcripción de lenguas indígenas es difícil, especialmente para lenguas que no están ampliamente disponibles en la web. Para poder transcribir textos, necesitamos construir modelos de lenguaje y estos modelos requieren ejemplos de cómo una lengua normalmente se representa visualmente.

Con la ayuda de Stephanie Wood, hemos podido construir una colección de transcripciones en Nahuatl. Los historiadores nos enviaron materiales y libros del archivo que ellos han transcrito con gran esfuerzo a documentos de Microsoft Word o archivos de texto. A ellos les aseguramos que estas transcripciones se mantendrían privadas y que sólo se usarían para el análisis estadístico que alimentaría nuestro sistema lo que ha permitido la transcripción de libros en Nahuatl.

¿Y que se puede decir sobre las otras lenguas indígenas con las cuales estamos trabajando? Nos ha costado mucho crear colecciones en Zapotec, Mixtec, Purépecha y Huastec, por ello, nuestro sistema no es eficaz en la transcripción de documentos en estas lenguas.

Siguientes Pasos

Nuestra nueva asistente de investigación, María Victoria Fernández, nos va a dirigir en la siguiente etapa del proyecto Reading the First Books. Para el final del próximo año, esperamos haber transcrito toda la colección de Primeros Libros y haber incorporado estas transcripciones a la página web y hacer disponible el acceso para su análisis. Usted se puede mantener al tanto de nuestro progreso a través de la página web del proyecto Reading the First Books.

También vamos a organizar un taller para discutir el futuro de la transcripción automática de textos históricos y el significado de nuestro proyecto para estudios sobre el período colonial en Latinoamérica. ¡Manténgase al tanto de nuestro proyecto!

Cómo nos puede ayudar

¿Quiere participar en el proyecto First Books? Hay tanto que puede hacer:

  • ¡Ayúdenos ampliar nuestra colección de lenguas indígenas! Envíenos cualquier texto que haya escrito en Nahuatl, Zapoteco, Mixteco, Huasteco, o Purépecha. Esto puede ser poesía o prosa contemporánea, o transcripciones de documentos históricos. No podemos utilizar PDFs pero sí documentos en Word, RTF, TXT o XML, ¡todo nos ayudará! Recuerde que nunca compartiremos sus documentos y que nosotros tampoco los leerémos. Sus documentos no tienen que ser perfectos. Se utilizarán como datos para nuestros modelos computacionales, y nos ayudarán a mejorar el proceso de transcripción de lenguas indígenas.
  • ¡Ayúdenos a mejorar Ocular! ¿Eres experto en computación, programación o lingüística computacional? Ocular está disponible gratuitamente en GitHub y ¡usted puede ayudar a mejorarlo! Nos gustaría expandir las capacidades de Ocular para crear textos codificados en TEI. Nos encantaría comprobar si también funciona con lenguas no romances como el Árabe, y también mejorar el sistema para extraer líneas, un programa de pre-procesamiento que corta las páginas en líneas individuales.
  • ¡Pruebe Ocular con sus propios textos! Si usted es un historiador con copias escaneadas de libros antiguos, podremos trabajar con usted para transcribir automáticamente documentos escaneados de cualquier época (pre-siglo XX es mejor) y en cualquier lengua que use el alfabeto latino. (Ocular debe funcionar con todas las lenguas basadas en caracteres, pero no lo hemos comprobado todavía. Comienze con GitHub o contáctenos directamente para ayudarle (halperta@gmail.com).

Traducido por María Victoria Fernández.

Tagged with: , , ,

“Reading the First Books” se une con eMOP

Ocular, el sistema de transcripción utilizado por el proyecto Reading the First Books, se desarolló como un prototipo experimental. Una de nuestras metas fue facilitar el uso de Ocular a través de un proceso de trabajo que mejoraría la interfaz de usuario, la interacción con el sistema y la visualización de los resultados.

Para lograr esta meta, colaboramos con el Early Modern OCR Project (eMOP) [proyecto de ROC para la temprana edad moderna] de Texas A&M University. eMOP fue financiado inicialmente por una beca del Mellon Foundation en 2012 y ha creado un grupo de herramientas digitales para transcribir, evaluar, y mejorar la transcripción automática de los libros de la temprana edad moderna. Este proyecto ha logrado transcribir casi 45 millones de páginas de textos y datos sacados del Early English Books Online, Eighteenth Century Collections Online y otras colecciones.

Screen shot of the eMOP dashboard, showing options for languages and fonts, as well as a list of early Mexican books.

Libros de los Primeros Libros en el panel de control de eMOP.

Un resultado del proyecto de eMOP fue el desarrollo de un proceso de trabajo para la transcripción automática que une los sistemas de ROC (reconocimiento óptico de caracteres) con las herramientas para el preprocesamiento, el postprocesamiento y la evaluación del texto. Muchas de estas herramientas han sido desarrolladas por eMOP y se han unido en un panel de control que es fácil de usar. Integramos el programa de Ocular en el panel de control de eMOP para mejorar la accesibilidad al sistema y tomar ventaja de las herramientas de eMOP dedicadas al postprocesamiento y evaluación de datos.

Durante un período de tres meses, el equipo de eMOP (Matt Christy, Trey Dockendorf y Liz Grumbach) trabajó conmigo y Dan Garrette (un desarrollador de Ocular) para integrar los sistemas. Fue necesario modificar a Ocular y hacerlo más fácil e intuitivo de usar. Por ejemplo, tuvimos que facilitar el acceso y entendimiento de los datos de salida. También fue necesario cambiar la infraestructura de eMOP y agregar aplicaciones como la utilización de fuentes e idiomas variables, y una etapa de entrenamiento antes del proceso de transcripción.

Transcripciones automáticas de un libro antiguo mexicano, hecho por eMOP en XML.

Transcripciones automáticas de un libro antiguo mexicano, producidas en XML usando eMOP.

En mayo, producimos las primeras transcripciones usando Ocular en la interfaz de eMOP. Probamos la herramienta con seis páginas de un libro escrito en Español, Latín y Nahuatl. El systema produce transcripciones en texto sin formato y en XML (usando el esquema de ALTO desarrollado por el Library of Congress) para preservar datos como la posición de caracteres en la página o el idioma de cada palabra. Se produce una versión diplomática y otra normalizada (es decir modernizada) de cada transcripción. [Consulta un artículo sobre las transcripciones modernizadas (in English)].

Aunque estábamos contentos por haber logrado producir transcripciones, todavía tenemos mucho trabajo que hacer antes de empezar el proceso de transcribir libros enteros. En el proceso de probar estas nuevas herramientas, descubrimos incompatibilidades y nuevos errores en eMOP y Ocular. Estamos trabajando con Bryan Tarpley, nuevo miembro del equipo de eMOP, para resolver estas dificultades. También tenemos que afinar los parámetros de los documentos en la colección de los Primeros Libros y seguir modificando los datos lingüísticos y ortográficos para los siete idiomas en el corpus.

Ocular y eMOP estan disponibles en GitHub pero el proceso de instalación requiere un poco de conocimiento técnico. Esperamos que otros proyectos podrán colaborar con eMOP y tomar ventaja de las herramientas que ofrece. En fin, futuras colaboraciones con eMOP podrán mejorar la accesibilidad y precisión de transcripciones automáticas de los libros antiguos de America Colonial.

 

Tagged with: , , , ,

Reading the First Books joins the Early Modern OCR Project

Ocular, the automatic transcription tool used by the Reading the First Books project, was designed as a prototype to test experimental models. One of the goals of the project was to make Ocular more user-friendly by integrating it into an OCR workflow that would include a more user-friendly interface, easier interaction with the tool, and clearer visualization of results.

To accomplish this goal, we partnered with the Early Modern OCR Project (eMOP) at Texas A&M University. eMOP, which was originally funded by a Mellon Foundation Grant in 2012, aimed to bring together tools for assessing, transcribing, and evaluating the automatic transcription of early modern books, ultimately transcribing some 45 million pages of data from Early English Books Online, Eighteenth Century Collections Online, and elsewhere.

Screen shot of the eMOP dashboard, showing options for languages and fonts, as well as a list of early Mexican books.

Primeros Libros files uploaded into the eMOP dashboard.

One outcome of the eMOP project was an open source workflow for automatic transcription, which brings Optical Character Recognition (OCR) tools for transcription with tools for pre-processing, post-processing, and evaluating text, many of which were created by eMOP. These tools come together through the user-friendly eMOP dashboard. By integrating Ocular into the eMOP dashboard and workflow, we would make the tool more accessible, while also gaining access to the tools for post-processing and evaluation.

Over a three month period, the eMOP team (Matt Christy, Trey Dockendorf, and Liz Grumbach) worked with Dan Garrette (an Ocular developer) and myself to make this integration possible. This involved restructuring Ocular to make it more user-friendly and intuitive, for example, by changing the output so it was easier to find and interpret. It also involved making significant changes to the eMOP infrastructure, such as adding the ability to work with multiple fonts and languages, or adding a training stage prior to transcription.

Transcripciones automáticas de un libro antiguo mexicano, hecho por eMOP en XML.

Automatic transcriptions of a sixteenth century Mexican book, produced in XML using eMOP.

In May, we were able to produce the first transcriptions using Ocular with the eMOP interface. We tested the tool on six pages from a book written in Spanish, Latin, and Nahuatl. The system displays the transcriptions in plain text and in xml (using the ALTO schema designed by the Library of Congress) to preserve information like the location of each character on the page, and the language of each word. It produces both a “diplomatic” and “normalized” (or modernized) version of the transcription. [See our discussion of modernized transcriptions (en español)].

Though we were thrilled to have produced successful transcriptions, we still had a lot of work to do before we can begin transcribing. Over the course of the testing process, we discovered new incompatibilities between eMOP and Ocular, and new bugs in the code. We have been working with Bryan Tarpley, a new member of the eMOP team, to resolve these challenges. We will also need to fine-tune the parameters for the documents in the Primeros Libros collection, and continue modifying language data and orthographies for the seven languages represented in our corpus.

Both Ocular and the eMOP dashboard are available via GitHub, though installing your own version does require some technical skill. We hope that future projects will also be able to partner with eMOP to take advantage of these tools. Ultimately, this should improve both the availability and the accuracy of automatic transcriptions for early modern books from Colonial America.

Tagged with: , , , , ,

Enhancing Digital Archives and Collections: Report from SAA

During the first week of August, the Society of American Archivists (SAA) held its annual conference in Atlanta, Georgia. As the new Reading the First Books project GRA, I participated in a lightning round at the Students and New Archives Professionals (SNAP) Roundtable meeting. The goal of the presentation was to provide a brief overview of the Reading the First Books project to members of the archival community and show how digital humanities scholars are using digital archives in their research. As the shift from analog to digital records continues to transform the landscape of the archival profession, digital archiving, curation, and preservation are becoming crucial concerns. Several conference sessions focused on digital collections such as the Digital Archives in Action research forum and the Archival Records in the Age of Big Data education session. To address digital archiving issues on both a practical and theoretical level, archivists are increasingly collaborating with information technology professionals, computer scientists, and scholars in the digital humanities.

Using the Reading the First Books project as a case study, our presentation specifically discussed how digital humanities projects have the possibility to not only use but also enhance digital archives by increasing discoverability and accessibility. We are producing tools to improve machine-reading of historical documents and using these tools to produce transcriptions of books held in the Primeros Liberos de las Américas Collection. Our goal is not simply to create and refine automatic transcription tools but to integrate transcriptions created using these tools back into the digital collection they were derived from. Soon, users will be able to access both the digital facsimiles of the books in the Primeros Libros Collection as well as full transcriptions that are a product of this research. It was a great opportunity to speak with archival professionals about this project since it is this type of digital humanities work that is advocating for both innovative uses and enhancements of digital collections.

Tagged with: , , ,

The Digital Editing of Colonial Texts: report from LASA

The Latin American Studies Association International Congress, held in May 2016 in New York City, brought together scholars from across the Americas to share their research in the humanities and social sciences. Digital Scholarship was well represented among the thousands of participants (and dozens of panels) held over four days, including research about digital communities, digital projects, and digital tools for academic publishing and analysis. RedHD, the Mexican network for digital humanities, was particularly well-represented.

The Reading the First Books project was invited to present as part of a workshop on “The Electronic Edition of Colonial and Nineteenth-Century Latin American Texts.” Scholarly editing is the practice of producing new editions of historical texts for students, scholars, or a general public. Digital scholarly editing explores new ways of imagining these publications using digital platforms. [See our slides]

The LASA panel brought together four projects representing four stages in the production of a digital edition. In addition to our project, Elizabeth Grumbach from the IDHMC at Texas A&M University (and a collaborator on this project) spoke about developing communities for the peer review of digital projects. She described how the Advanced Research Consortium has developed a set of standards and practices for the evaluation of scholarly digital work, providing support for a number of thematic “nodes” oriented around nineteenth century literature, medieval studies, and other categories of engagement. She left the audience to consider whether an ARC node dedicated to colonial Latin American scholarship would be beneficial to this community.

Nick Laiacona, the president of Performant Software Solutions, spoke about Juxta Editions, a tool for the collation, transcription, and markup of historical books and manuscripts. A partner software to Juxta Commons, a digital space for collating and sharing historical documents, Juxta Editions enables the uploading and collation of multiple witnesses, and offers a user-friendly approach to TEI encoding. It can also host published editions on its webspace.

Finally, Ralph Bauer spoke about the Early Americas Digital Archive, a website hosted by WordPress that brings together scholarly editions of historical American texts. The project represents one approach to the digital scholarly edition of a colonial American collection of texts.

The stated purpose of the workshop was to start a conversation and develop a community of scholars interested in supporting the production of digital scholarly editions of historical Latin American texts. Interested scholars are invited to contact the workshop’s organizer, Clayton McCarl, to join the ongoing conversation. We hope that the Reading the First Books project can support this initiative by helping scholars to produce the first stage of transcription for historical printed texts.

Tagged with: , , ,

Reading the First Books at LASA

“The Electronic Edition of Colonial and Nineteenth-Century Latin American Texts: New Tools, New Models for Collaboration”

XXXIV International Congress of the Latin American Studies Association (LASA), New York City

Saturday, May 28, 2016, 8-9:30 a.m.

The “Reading the First Books” project will be at LASA as part of a workshop to be held at this year’s LASA Congress on the electronic edition of colonial texts. This session brings together a diverse group of experts for a conversation designed to reveal new possibilities for collaboration on Digital Humanities projects related to colonial and nineteenth-century Latin America.

Come learn about new developments with the project from both Hannah Alpert-Abrams, the project GRA, and Liz Grumbach, our Texas A&M University liaison.

Read more about the panel on Facebook or the LASA website. We’ll report back after the conference!

Sistemas nuevos para la transcripción modernizada

[English. Gracias a Ana Cecilia Calle por su ayuda con la traducción al español.]

El propósito del proyecto “Reading the First Books” fue desarrollar e implementar sistemas para la transcripción de impresos antiguos de la Nueva España. Cuando comenzamos el proyecto, uno de los primeros deberes fue preguntarle a los profesores que usan los libros antiguos por el tipo de transcripción que prefieren a la hora de trabajar con estos textos.

Hay dos opciones. La primera, llamada “transcripción diplomática” (diplomatic transcription), preserva las variantes ortográficas de los documentos antiguos como por ejemplo las letras antiguas (como la s larga), la ortografía variable, los acentos ausentes, la abreviatura y las equivocaciones tipográficas. La segunda es llamada la “transcripción normalizada” (normalized transcription), que expande la abreviatura, sustituye las letras antiguas y cambia la ortografía según las normas modernas.

La mitad de los profesores que entrevistamos nos dijeron que preferían la transcripción diplomática “porque las variantes ortográficas pueden contener información de importancia histórica”. La otra mitad preferían la transcripción normalizada “porque se facilita el trabajo de buscar, leer, y analizar el texto.”

Una investigación realizada a través de Twitter confirmó los resultados: el 64% de quienes respondieron preferían ambas transcripciones, la diplomática y la normalizada. Pero es más fácil decirlo que hacerlo. El reconocimiento óptico de caracteres (ROC, OCR, por sus siglas en inglés), que es el proceso que usamos para la transcripción automática de los impresos antiguos, solo produce las transcripciones diplomáticas porque analiza en orden una cadena de caracteres, buscando para cada una la imagen correspondiente en su base de datos. Los sistemas que modernizan textos antiguos, a la vez, son resultado? del posprocesamiento que depende, por un lado, de la precisión del texto ya transcrito y de listas con reglas para reemplazar palabras o frases hechas exclusivamente para el inglés. No existe un sistema que modernice fácilmente el español antiguo y mucho menos el Nahuatl.

Three variations of the text: a digital facsimile of a sixteenth century document, a diplomatic transcription that preserves historical variation, and a normalized transcription that follows modern standards.

Ejemplos de las transcripciones diplomaticas y normalizadas hecho con Ocular.

Por eso fuimos en busca de una solución propia. Modificamos Ocular, nuestro sistema de ROC preferido, para producir automáticamente y simultáneamente tanto las transcripciones diplomáticas como las normalizadas. El resultado de este primer ejercicio, que se publicará en los Procedimientos del NAACL2016, descubre automáticamente los modelos de variaciones ortográficas que aparecen en el texto. Le damos al sistema unos ejemplos de texto moderno, como por ejemplo documentos del Proyecto Gutenberg, y el sistema los usa para identificar diferencias entre el uso moderno del idioma en textos contemporáneos y en documentos antiguos.  [Una descripción técnica.][GitHub]

En el ejemplo aquí, el sistema ha aprendido que cuando hay un tilde sobre una vocal, significa que una m o n ha sido borrada. También reconoce que se puede sustituir la c moderna por la q, o la v por la u y que las palabras apro y uecha son dos partes de la misma palabra (a pesar del guión ausente). Además, el ejemplo deja ver algunos casos en los que Ocular comete errores al permitir contrastar la transcripción con una imagen del original:  por ejemplo, en la transcripción diplomática reconoció en la como p lo que en la imagen del original es una u. .

Table of common characters and their replacements, along with how often they occur and the probability learned by the model for that substitution.

Modelos de la ortografía de la Nueva España identificado  por Ocular. En la columna izquierda están las letras  modernas, seguido por sus equivalentes históricas, la frecuencia del intercambio y su probabilidad.

A pesar de las equivocaciones, creemos que el sistema puede ser útil por varias razones. Primero, la producción simultánea de ambas formas de transcripción mejora la precisión de las dos, porque la versión diplomática se beneficia de la nueva información recogida del texto moderno mientras que la versión moderna se libera de su dependencia de la precisión de una transcripción previa. Además, con la producción simultánea de las dos transcripciones, no es difícil lograr (alcanzar) el ideal de los profesores de una transcripción que preserve variantes idiomáticas y ofrezca al mismo tiempo un texto moderno.

A la vez que analiza los documentos para crear las transcripciones, el sistema aprende los modelos de variantes ortográficas que aparecen en los documentos. Con la preservación de esta información, es posible descubrir información nueva sobre los libros antiguos. Estamos acostumbrados pensar que el ROC es un proceso lento y costoso que retrasa el análisis de los corpus textuales. Pero con sistemas como Ocular, es posible analizar a los documentos antiguos y a la vez producir nuevos recursos accesibles.

Tagged with: ,

New Tools for Modernized Transcription

[Español]

The goal of the “Reading the First Books” project is to design and implement tools for the transcription of the Primeros Libros collection of books printed in New Spain in the sixteenth century. One of the first tasks we faced when we began this project was to ask historians: what kind of transcriptions would you like to see?

We offered two choices. The first, a diplomatic transcription, would be one that preserved all the orthographic oddities of the original documents: obsolete characters like the “long s” (ſ), inconsistent spelling, missing accents, historical shorthand, and typographical errors. The second, a normalized transcription, would be one that rewrote the original documents according to modern conventions by expanding shorthand, replacing obsolete characters with their modern equivalents, and standardizing spelling.

About half the scholars we spoke to wanted to see a diplomatic transcription: “because spelling variation can tell us things about the original compositer!”

The other half of our informal pool wanted to see a normalized transcription: “because searching, reading, and processing are easier when text is normalized.”

An informal twitter survey confirmed our results: 64% of respondents wanted both diplomatic and normalized transcriptions. But this was easier said than done. Optical Character Recognition (OCR), which we use to automatically transcribe historical printed documents, can only produce diplomatic transcriptions: it moves sequentially through a string of characters, seeking to match them to images in its database. Tools that have been designed to modernize transcribed text, on the other hand, depend on hand-crafted dictionaries that exist almost exclusively for historical English. No tool existed to easily modernize historical Spanish, never mind Nahuatl.

Three variations of the text: a digital facsimile of a sixteenth century document, a diplomatic transcription that preserves historical variation, and a normalized transcription that follows modern standards.

Sample Diplomatic and Normalized Transcriptions, produced automatically and simultaneously with Ocular.

So we set out to address the problem ourselves by modifying Ocular, our favorite OCR tool, to automatically (and simultaneously) produce both diplomatic and modernized transcriptions. Our first attempt at this challenge, which will appear in the proceedings of NAACL2016, works by automatically discovering patterns of orthographic variation in a given text. First, we provide it with samples of modernized text, like documents from Project Gutenberg. Then it compares the usage of language in those documents with the characters that it sees on the page. When it finds inconsistencies, it recognizes them, spitting out the printed letters and their modern equivalent. [Read a technical description.][Download the software.]

As the image to the left shows, the result is a tool that automatically transcribes historical documents, preserving historical variation while simultaneously producing a modernized text. In the example shown here, the system has learned that a tilde over a vowel signifies an elided m or n; that a q may be used in place of a c or a in place of a v; and that the words apro and uecha are two parts of a whole (despite the missing hyphen). We can also see where the tool has made mistakes: misreading a u as a p, for example, in the diplomatic version.

Table of common characters and their replacements, along with how often they occur and the probability learned by the model for that substitution.

Orthographic patterns in texts from New Spain, identified by Ocular. The left column shows the modern character, followed by its historical variant, frequency, and likelihood.

Despite these errors, we see a lot of potential for this tool. The simultaneous production of both kinds of transcription actually improves the accuracy of both versions: the diplomatic version benefits from our knowledge of modern language, while the normalized version is no longer tied to the accuracy of a previously produced diplomatic variation. The simultaneous production of these two kinds of transcriptions, furthermore, means that without significantly increasing our use of resources we can better meet the needs of our users: documents can be searched, parsed, tagged, or analyzed for historical orthography.

As it analyzes documents to produce transcriptions, our modified OCR tool learns patterns of orthographic variation. If we preserve this information, we can acquire new knowledge about our corpus. OCR is often thought of as a necessary bottleneck on the way to corpus analytics. But with tools like this, transcription can be simultaneously an act of analysis, and a stage in the production of more accessible, discoverable resources.

Tagged with: , , , ,