S86: OCR für ressourcenarme Sprachen am Beispiel des Obersorbischen

Bibliothekartag 2020

Session: Präsentation und Erschließung von digitalem Content (S86)

Die Qualität der Ergebnisse automatischer Zeichenerkennung (OCR) hängt primär von der Passung der der OCR zugrundeliegenden Modelle und der jeweiligen Vorlage ab. Sowohl kommerzielle als auch freie Software erlauben dem Nutzer aus einer Anzahl vortrainierter Modelle das passendste auszuwählen. Die Modelle werden mit Hilfe von vorhandenem, fehlerfreiem Volltext für eine Sprache oder einen Schrifttyp trainiert. Aus ökonomischen Gründen beschränkt sich die Modellauswahl auf häufig verwendete Sprachen und Schrifttypen.
In der Vorbereitung der Digitalisierung dreier obersorbischer Zeitungsunternehmungen haben wir sowohl eine kommerzielle (ABBYY Recognition Server) als auch eine freie OCR-Software (Tesseract) auf ihre Eignung für die Erzeugung wissenschaftlich nachnutzbarer Volltexte getestet.
Obersorbisch ist eine in der Oberlausitz von etwa 20000-25000 Menschen gesprochene westslawische Sprache, für die es nur wenige (computer-)linguistisch nutzbare Daten gibt.
Die adressierten Zeitungen sind primär in Fraktur gesetzt. Deren Kombination mit slawischen Diakritika stellt eine Besonderheit dar, die von verfügbaren OCR-Modellen nicht abgedeckt wird. Sowohl ABBYY Recognition Server mit dem Modell Altdeutsch/Gothic als auch Tesseract mit dem sprachunabhängigen Modell Fraktur erzielten daher schlechte Erkennungsraten (Zeichenfehler, CER ABBYY: 12-17 % bzw. Tesseract: 8-11 %).
Ein großer Vorteil von Tesseract ist die Möglichkeit, eigene OCR-Modelle zu trainieren bzw. vorhandene auf spezifische Vorlagen anzupassen. Um uns dem Ziel hochqualitativer Volltexte anzunähern, haben wir daher das Modell Fraktur mit Hilfe von 47 Seiten feinjustiert und auf weiteren 10 Seiten evaluiert. Mit einer CER zwischen 3,7 und 0,5 % zeigte sich ein deutlicher, positiver Trainingseffekt.
Im Vortrag erläutern wir die einzelnen Schritte, die von Text und Bild zum fertigen OCR-Modell führen und diskutieren Möglichkeiten und Grenzen für den produktiven Einsatz in der bibliothekarischen Praxis.

Kay-Michael Würzner¹, Wito Böhmak²
¹Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden, Digitale Objekte, Dresden, Deutschland, ²Sorbisches Institut, Sorbische Zentralbibliothek und Sorbisches Kulturarchiv, Bautzen, Deutschland

Speakers: Kay-Michael Würzner Wito Böhmak