Del Fraktur al español: cómo se reconstruyó el corpus

Detrás de cada documento legible hay una cadena de trabajo que empezó con fotocopias en alemán gótico que casi nadie podía leer. Esta es, en breve, la historia técnica del corpus.

El punto de partida

Los textos llegaron como escaneos de impresos en tipografía Fraktur, de los siglos XVIII a XX. Para una máquina —y para la mayoría de los lectores— esa tipografía es un muro. El primer paso fue reconocer el texto (OCR) con modelos afinados para Fraktur, corrigiendo a 400 y 600 dpi los pasajes más dañados.

La traducción

Sobre la transcripción alemana ya depurada se aplicó traducción automática profesional, revisada y certificada documento por documento. La métrica clave fue el "residuo alemán": el porcentaje de líneas en español que aún arrastraban palabras alemanas. El umbral de calidad se fijó por debajo del 8 %, y 121 de 124 documentos lo alcanzaron.

No se buscó la perfección silenciosa, sino la honestidad verificable: cada documento declara su nivel real de calidad.

Las cuatro capas

El resultado se organizó en cuatro capas por documento —original, alemán, bilingüe alineado y español— para que la traducción nunca oculte su fuente. Lo que no se pudo traducir con plena fidelidad quedó marcado, no disimulado.

Un trabajo abierto

El corpus no es una edición crítica definitiva: es un instrumento de trabajo riguroso y transparente. Quedan frentes abiertos —el glosario, el cotejo con el Rito Sueco, la revisión por grado— y el aparato crítico los enumera sin maquillaje. Reconstruir fue solo la primera mitad; cuidar lo reconstruido es la otra.