Reporte Anual del Proyecto “Reading the First Books”

Transcripción normalizada, integración con eMOP, XML, y transcripción de lenguas indígenas: aquí se presenta un reporte de lo que se ha cumplido durante el primer año del proyecto Reading the First Books. [English]

Transcripciones Normalizadas

Los programas digitales para transcribir libros impresos automáticamente generalmente producen “transcripciones diplomáticas”: es decir, transcripciones que preservan la ortografía y puntuación del texto original.

Pero muchos usuarios de textos digitales prefieren transcripciones normalizadas, donde la ortografía es más consistente y las abreviaturas han sido ampliadas. La normalización facilita la búsqueda y la lectura de textos; también ayuda con formas más complejas de análisis digital como la lematizacíon y el analísis sintáctico, los cuales ayudan a modelar los temas y a su visualización.

En consecuencia, hemos creado una extensión de Ocular que modela transcripciones normalizadas y diplomáticas. Cada vez que se transcribe un texto, Ocular produce el texto en su forma moderna e histórica. Esto lo hace aprendiendo por si mismo las diferencias entre las transcripciones y aplicándolas a su transcripción.

Esto significa que Ocular puede “normalizar” cualquier texto en cualquier lengua de la que tengamos datos. Y los lingüístas computacionales que crearon Ocular, Taylor Berg-Kirkpatrick y Dan Garrette, están trabajando para mejorar el sistema de normalización para que los historiadores tengan acceso a mejores versiones normalizadas de textos históricos.

[Lea nuestro reporte sobre transcripción normalizada] [Inglés]

Integración de eMOP y Transcripción de la colección Primeros Libros

El prototipo de Ocular, el programa que usamos para transcribir textos, funciona mejor cuando se usa con pocos libros a la vez. Esto no es práctico para una colección tan extensa como los Primeros Libros u otras colecciones grandes de textos.

Para resolver este problema, trabajamos con Texas A&M University (TAMU) para manejar e integrar nuestra colección de textos al proyecto Early Modern OCR (eMOP).

Con el apoyo de Anton DuPlessis, uno de los directores del proyecto Primeros Libros y bibliotecario en TAMU, hemos podido procesar e incorporar la gran mayoría de los libros de esta colección a una base de datos.

Después de crear esta base de datos, trabajamos con nuestros colegas de la Iniciativa para Humanidades Digitales, Medios de Comunicación y Cultura–IDHMC (Bryan Tarpley, Matt Christy, Trey Dockendorf, and Liz Grumbach) para integrar Ocular al eMOP.

El eMOP fue diseñado para transcribir grandes colecciones de textos, como “Early English Books Online,” usando Tesseract, el sistema de transcripción automática de Google.

Ahora podemos usar Ocular empleando la interfase de eMOP. Esto significa que podemos manejar y transcribir grandes cantidades de datos más fácilmente. Y usted también podrá! Tanto eMOP como Ocular se pueden accesar via GitHub, aunque una mejor aproximación sería colaborar con IDHMC directamente.

[Lea nuestro reporte sobre la integración con eMOP.] [Inglés]

Mejor XML

Ocular fue diseñado para producir transcripciones en texto sin formato: solamente las palabras y nada más que las palabras.

Con la ayuda de Melanie Cofield, experta en metadatos en UT Libraries, hemos ampliado Ocular para producir XML usando el esquema ALTO de la Biblioteca del Congreso. ALTO fue diseñado específicamente para transcripciones automáticas, y facilitará el proceso para mostrar los textos transcritos al lado de las imágenes escaneadas en la página web del proyecto Primeros Libros. También preserva la información sobre la transcripción, como parámetros del sistema.

¡Pero no se preocupe! Ocular todavía produce transcripciones en texto sin formato, y le aseguramos que podrá descargar estos archivos. Si usted quiere hacer análisis de datos, no tendrá que extraer metadata de nuestros archivos transcritos.

Transcripción de Lenguas Indígenas

Cuando comenzamos este proyecto, una de las prioridades fue la transcripción de lenguas indígenas. De hecho, el fracaso en el uso de Ocular para transcribir Nahuatl fue lo que inspiró este proyecto.

Pero hemos encontrado que la transcripción de lenguas indígenas es difícil, especialmente para lenguas que no están ampliamente disponibles en la web. Para poder transcribir textos, necesitamos construir modelos de lenguaje y estos modelos requieren ejemplos de cómo una lengua normalmente se representa visualmente.

Con la ayuda de Stephanie Wood, hemos podido construir una colección de transcripciones en Nahuatl. Los historiadores nos enviaron materiales y libros del archivo que ellos han transcrito con gran esfuerzo a documentos de Microsoft Word o archivos de texto. A ellos les aseguramos que estas transcripciones se mantendrían privadas y que sólo se usarían para el análisis estadístico que alimentaría nuestro sistema lo que ha permitido la transcripción de libros en Nahuatl.

¿Y que se puede decir sobre las otras lenguas indígenas con las cuales estamos trabajando? Nos ha costado mucho crear colecciones en Zapotec, Mixtec, Purépecha y Huastec, por ello, nuestro sistema no es eficaz en la transcripción de documentos en estas lenguas.

Siguientes Pasos

Nuestra nueva asistente de investigación, María Victoria Fernández, nos va a dirigir en la siguiente etapa del proyecto Reading the First Books. Para el final del próximo año, esperamos haber transcrito toda la colección de Primeros Libros y haber incorporado estas transcripciones a la página web y hacer disponible el acceso para su análisis. Usted se puede mantener al tanto de nuestro progreso a través de la página web del proyecto Reading the First Books.

También vamos a organizar un taller para discutir el futuro de la transcripción automática de textos históricos y el significado de nuestro proyecto para estudios sobre el período colonial en Latinoamérica. ¡Manténgase al tanto de nuestro proyecto!

Cómo nos puede ayudar

¿Quiere participar en el proyecto First Books? Hay tanto que puede hacer:

  • ¡Ayúdenos ampliar nuestra colección de lenguas indígenas! Envíenos cualquier texto que haya escrito en Nahuatl, Zapoteco, Mixteco, Huasteco, o Purépecha. Esto puede ser poesía o prosa contemporánea, o transcripciones de documentos históricos. No podemos utilizar PDFs pero sí documentos en Word, RTF, TXT o XML, ¡todo nos ayudará! Recuerde que nunca compartiremos sus documentos y que nosotros tampoco los leerémos. Sus documentos no tienen que ser perfectos. Se utilizarán como datos para nuestros modelos computacionales, y nos ayudarán a mejorar el proceso de transcripción de lenguas indígenas.
  • ¡Ayúdenos a mejorar Ocular! ¿Eres experto en computación, programación o lingüística computacional? Ocular está disponible gratuitamente en GitHub y ¡usted puede ayudar a mejorarlo! Nos gustaría expandir las capacidades de Ocular para crear textos codificados en TEI. Nos encantaría comprobar si también funciona con lenguas no romances como el Árabe, y también mejorar el sistema para extraer líneas, un programa de pre-procesamiento que corta las páginas en líneas individuales.
  • ¡Pruebe Ocular con sus propios textos! Si usted es un historiador con copias escaneadas de libros antiguos, podremos trabajar con usted para transcribir automáticamente documentos escaneados de cualquier época (pre-siglo XX es mejor) y en cualquier lengua que use el alfabeto latino. (Ocular debe funcionar con todas las lenguas basadas en caracteres, pero no lo hemos comprobado todavía. Comienze con GitHub o contáctenos directamente para ayudarle (halperta@gmail.com).

Traducido por María Victoria Fernández.

Tagged with: , , ,