Sistemas nuevos para la transcripción modernizada

[English. Gracias a Ana Cecilia Calle por su ayuda con la traducción al español.]

El propósito del proyecto “Reading the First Books” fue desarrollar e implementar sistemas para la transcripción de impresos antiguos de la Nueva España. Cuando comenzamos el proyecto, uno de los primeros deberes fue preguntarle a los profesores que usan los libros antiguos por el tipo de transcripción que prefieren a la hora de trabajar con estos textos.

Hay dos opciones. La primera, llamada “transcripción diplomática” (diplomatic transcription), preserva las variantes ortográficas de los documentos antiguos como por ejemplo las letras antiguas (como la s larga), la ortografía variable, los acentos ausentes, la abreviatura y las equivocaciones tipográficas. La segunda es llamada la “transcripción normalizada” (normalized transcription), que expande la abreviatura, sustituye las letras antiguas y cambia la ortografía según las normas modernas.

La mitad de los profesores que entrevistamos nos dijeron que preferían la transcripción diplomática “porque las variantes ortográficas pueden contener información de importancia histórica”. La otra mitad preferían la transcripción normalizada “porque se facilita el trabajo de buscar, leer, y analizar el texto.”

Una investigación realizada a través de Twitter confirmó los resultados: el 64% de quienes respondieron preferían ambas transcripciones, la diplomática y la normalizada. Pero es más fácil decirlo que hacerlo. El reconocimiento óptico de caracteres (ROC, OCR, por sus siglas en inglés), que es el proceso que usamos para la transcripción automática de los impresos antiguos, solo produce las transcripciones diplomáticas porque analiza en orden una cadena de caracteres, buscando para cada una la imagen correspondiente en su base de datos. Los sistemas que modernizan textos antiguos, a la vez, son resultado? del posprocesamiento que depende, por un lado, de la precisión del texto ya transcrito y de listas con reglas para reemplazar palabras o frases hechas exclusivamente para el inglés. No existe un sistema que modernice fácilmente el español antiguo y mucho menos el Nahuatl.

Three variations of the text: a digital facsimile of a sixteenth century document, a diplomatic transcription that preserves historical variation, and a normalized transcription that follows modern standards.

Ejemplos de las transcripciones diplomaticas y normalizadas hecho con Ocular.

Por eso fuimos en busca de una solución propia. Modificamos Ocular, nuestro sistema de ROC preferido, para producir automáticamente y simultáneamente tanto las transcripciones diplomáticas como las normalizadas. El resultado de este primer ejercicio, que se publicará en los Procedimientos del NAACL2016, descubre automáticamente los modelos de variaciones ortográficas que aparecen en el texto. Le damos al sistema unos ejemplos de texto moderno, como por ejemplo documentos del Proyecto Gutenberg, y el sistema los usa para identificar diferencias entre el uso moderno del idioma en textos contemporáneos y en documentos antiguos.  [Una descripción técnica.][GitHub]

En el ejemplo aquí, el sistema ha aprendido que cuando hay un tilde sobre una vocal, significa que una m o n ha sido borrada. También reconoce que se puede sustituir la c moderna por la q, o la v por la u y que las palabras apro y uecha son dos partes de la misma palabra (a pesar del guión ausente). Además, el ejemplo deja ver algunos casos en los que Ocular comete errores al permitir contrastar la transcripción con una imagen del original:  por ejemplo, en la transcripción diplomática reconoció en la como p lo que en la imagen del original es una u. .

Table of common characters and their replacements, along with how often they occur and the probability learned by the model for that substitution.

Modelos de la ortografía de la Nueva España identificado  por Ocular. En la columna izquierda están las letras  modernas, seguido por sus equivalentes históricas, la frecuencia del intercambio y su probabilidad.

A pesar de las equivocaciones, creemos que el sistema puede ser útil por varias razones. Primero, la producción simultánea de ambas formas de transcripción mejora la precisión de las dos, porque la versión diplomática se beneficia de la nueva información recogida del texto moderno mientras que la versión moderna se libera de su dependencia de la precisión de una transcripción previa. Además, con la producción simultánea de las dos transcripciones, no es difícil lograr (alcanzar) el ideal de los profesores de una transcripción que preserve variantes idiomáticas y ofrezca al mismo tiempo un texto moderno.

A la vez que analiza los documentos para crear las transcripciones, el sistema aprende los modelos de variantes ortográficas que aparecen en los documentos. Con la preservación de esta información, es posible descubrir información nueva sobre los libros antiguos. Estamos acostumbrados pensar que el ROC es un proceso lento y costoso que retrasa el análisis de los corpus textuales. Pero con sistemas como Ocular, es posible analizar a los documentos antiguos y a la vez producir nuevos recursos accesibles.

Tagged with: ,