Volltextdigitalisierung

Grundlagenwerke durchsuchbar machen

Sollen Grundlagenwerke in Datenbanken gespeichert und damit durchsuch- und vernetzbar gemacht werden, so ist eine hochwertige Volltextdigitalisierung in Form einer ausgabendiplomatischen Abschrift eine entscheidende Voraussetzung.

Volltextdigitalisierung

Grundlagenwerke durchsuchbar machen

Für die Digitalisierung von geisteswissenschaftlichen Grundlagenwerken ist eine möglichst genaue und fehlerfreie Erfassung unerlässlich. Dies kann entweder durch den Einsatz vollautomatischer Zeichen- und Texterkennungssoftware (Optical Character Recognition) oder durch eine manuelle doppelte Abschrift (Double Keying) erreicht werden. Beide Verfahren haben je nach Textvorlage ihre Vor- und Nachteile. Während OCR in der Regel kostengünstiger und schneller ist, bei älteren Drucken aber eine u.U. nicht ausreichende Genauigkeit liefert (auch 99,9% kann hier zu niedrig sein), ist das Double-Keying-Verfahren in der Praxis wesentlich kostenintensiver und erfordert einen höhren Zeitaufwand, erreicht aber normalerweise eine Erfassungsqualität von nahezu 100%. Da es sich bei den im Zusammenhang unserer Projekt zu erfassenden Quellen typographisch und bezüglich des Layouts um komplexe Vorlagen handelt, setzen wir in der Regel auf den Weg des Double Keying und arbeiten seit Gründung des TCDH mit unserem zuverlässigen und erfahrenen Partner „TQY DoubleKey“ in Nanjing (VR China) zusammen. Ein großer Vorteil dieser Zusammenarbeit besteht vor allem darin, dass die chinesischen Datentypist:innen aufgrund der Komplexität und Feingliedrigkeit ihrer eigenen Schrift auch feinste Schrift- und Zeichenunterschiede erkennen und als Nichtmuttersprachler:innen keine ungewollt korrigierenden „Verbesserungen“ vornehmen.

In zwei unabhängig voneinander arbeitenden Teams wird jeweils eine vollständige digitale Abschrift der Vorlage angefertigt. Dabei werden neben dem eigentlichen Textinhalt auch sämtliche typographischen Merkmale wie Kursivierung, Sperrung, Hoch- und Tiefstellung, Schriftgrößenwechsel etc. durch eindeutige Codierungen wiedergegeben. Ebenso werden die originalen Zeilen-, Spalten- und Seitenumbrüche reproduziert. Dieses sogenannte Character und Page Encoding liefert damit eine ausgabendiplomatische Reproduktion der Vorlage. Nach der doppelten Abschrift werden beide Fassungen automatisch miteinander verglichen und ein zeilensynoptisches Differenzprotokoll erstellt. Die dort verzeichneten Erfassungsunterschiede zwischen erster und zweiter Version werden abschließend manuell anhand des Originals abgeglichen und zu einem endgültigen Volltext zusammengeführt. Es verbleiben damit ausschließlich solche Fehler, die von beiden Erfassenden an der gleichen Stelle und in der gleichen Form gemacht wurden und durch den automatischen Vergleich nicht erkannt werden können. Stichprobenartige Qualitätskontrollen zeigen, dass im Gesamtergebnis Textversionen mit einer Genauigkeit von mindestens 99,997% (d.h. auf 100.000 Zeichen sind nicht mehr als 3 Fehler zu erwarten) entstehen.

Beispiele für die Volltextdigitalisierung komplexer Vorlagen

Deutsches Wörterbuch von Jacob Grimm und Wilhelm Grimm: Datenvolumen 33 Bände (DTV-Ausgabe) mit ca. 300.000.000 Zeichen, Erfassungskosten ca. 170.000 €, Erfassungszeit ca. 18 Monate

Oekonomische Encyklopädie von Johann Georg Krünitz: Datenvolumen 242 Bände mit ca. 240.000.000 Zeichen, davon 90% in Fraktur, Erfassungskosten ca. 150.000 €, Erfassungszeit ca. 12 Monate