conferences | speakers | series

S129: Der Weg zum nutzbaren Volltext. Werkspezifisches Training als Baustein der OCR-Volltexterkennung für Alte Drucke.

home

S129: Der Weg zum nutzbaren Volltext. Werkspezifisches Training als Baustein der OCR-Volltexterkennung für Alte Drucke.
Bibliothekskongress 2022

Session: 95, 96 oder 100 Prozent. OCR-D (S129)

Der Weg zum nutzbaren Volltext. Werkspezifisches Training als Baustein der OCR-Volltexterkennung für Alte Drucke
T. Schmidt1, J. Kamlah1
1Universität Manneim, Universitätsbibliothek, Mannheim, Deutschland

Abstract Text: Bibliotheken und Archive in Deutschland arbeiten seit einigen Jahren mit freien oder kommerziellen OCR-Lösungen, um aus digitalisierten Beständen Volltexte zu generieren. Die Fehlerrate der Texterkennung und die damit verbundene Nutzbarkeit der Volltexte variieren hierbei stark. Besonders Druckwerke des 16. bis 19. Jahrhunderts stellen OCR-Lösungen vor Herausforderungen: historische Schriften (beispielsweise Fraktur), heterogene Satzspiegel und typographische Besonderheiten können die Texterkennung erschweren. Dabei profitieren meist genau diese Bestände von qualitativ hochwertigen Volltexten, denn teils existieren nur noch wenige physische Exemplare eines historischen Drucks oder die konservatorischen Bedingungen lassen eine Nutzung in situ nicht zu. Der digitale Volltext gewinnt hier eine wichtige Rolle, um historische Druckwerke zugänglich zu machen.
Mithilfe eines werkspezifischen Nachtrainings lässt sich die Qualität der Texterkennung signifikant erhöhen. Als Bestandteil eines allgemeineren Trainingsprozesses von OCR-Lösungen, der die Fehlerrate für eine große Bandbreite von Schriften und Druckwerken reduziert, dient ein werkspezifisches Nachtraining der Feinjustierung der Texterkennung. Auch können so besondere Glyphen (z. B. astronomische Symbole, aber auch Zeichen wie die Siegrune der NS-Zeit), die für bestimmte Anwendungszwecke eine besondere Relevanz besitzen, von gängigen OCR-Lösungen allerdings nicht erkannt werden, nachtrainiert werden. Im Rahmen des DFG-geförderten Koordinierungsprojekts „OCR-D“ realisiert die Universitätsbibliothek Mannheim derzeit anwenderfreundliches werkspezifisches Training. Anhand ausgewählter Beispiele soll ein solcher Trainingsprozess dargestellt und auf seine Vorteile und Herausforderungen eingegangen werden.

Tweet

Speakers: Thomas Schmidt