Session: Forschungsdaten in den Humanities (S164)
Erstellung wissenschaftlich nachnutzbarer Volltexte für Präsentation und Analyse am Beispiel obersorbischer Drucke
W. Böhmak1, R. Sachunsky2, K.-M. Würzner3
1Sorbisches Institut e.V., Sorbische Zentralbibliothek / Sorbisches Kulturarchiv, Bautzen, Deutschland, 2Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden, Referat Digitale Objekte, Dresden, Deutschland, 3Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden, Referat Open Science, Dresden, Deutschland
Aufbauend auf einer Studie zum gezielten Training von OCR für obersorbische Drucke (siehe Programm zum 109. Dt. Bibtag 2020) wurde in einem Pilotprojekt des Sorbischen Instituts in den letzten Monaten ein produktiver Workflow etabliert. Dieser umfasst 1. die manuelle Erstellung von Ground Truth (GT), 2. das systematische Training entsprechender OCR-Modelle, 3. die automatische Prozessierung von Digitalisaten zu Volltext, 4. die Generierung von ALTO-XML zur digitalen Präsentation und 5. von TEI-XML z.B. für digitale Editionen und korpuslinguistische Auswertungen. Fokus ist dabei die stetige Qualitätsverbesserung (d.h. Minderung der durchschnittlichen Fehlerrate ebenso wie systematischer Schwächen) durch iterative Erweiterung des GT um zusätzliches Material und Optimierung der extrahierten im Training benutzten Zeilenbilder. Als Werkzeuge werden vorrangig Open-Source-Systeme eingesetzt: die OCR-D-Softwaresuite (mit dem PAGE-XML-Format als Träger der Bild-Text-Zuordnung) für automatische Workflows, die Programme Aletheia und LAREX für manuelle Transkription und Kitodo für die Bereitstellung der digitalen Objekte.
Im Vortrag erläutern wir unsere Vorgehensweise zur Qualitätssteigerung der Obersorbisch-OCR und diskutieren anhand von Referenzbeispielen die Möglichkeiten und Grenzen des Workflows. Ergänzend thematisieren wir Erfahrungen mit der OCR zweisprachiger Drucke und deren Übertragbarkeit auf weitere slawische Sprachen.
Speakers: Wito Böhmak