Session: 95, 96 oder 100 Prozent. OCR-D (S129)
Der Weg zum nutzbaren Volltext. Werkspezifisches Training als Baustein der OCR-Volltexterkennung für Alte Drucke
T. Schmidt1, J. Kamlah1
1Universität Manneim, Universitätsbibliothek, Mannheim, Deutschland
Mithilfe eines werkspezifischen Nachtrainings lässt sich die Qualität der Texterkennung signifikant erhöhen. Als Bestandteil eines allgemeineren Trainingsprozesses von OCR-Lösungen, der die Fehlerrate für eine große Bandbreite von Schriften und Druckwerken reduziert, dient ein werkspezifisches Nachtraining der Feinjustierung der Texterkennung. Auch können so besondere Glyphen (z. B. astronomische Symbole, aber auch Zeichen wie die Siegrune der NS-Zeit), die für bestimmte Anwendungszwecke eine besondere Relevanz besitzen, von gängigen OCR-Lösungen allerdings nicht erkannt werden, nachtrainiert werden. Im Rahmen des DFG-geförderten Koordinierungsprojekts „OCR-D“ realisiert die Universitätsbibliothek Mannheim derzeit anwenderfreundliches werkspezifisches Training. Anhand ausgewählter Beispiele soll ein solcher Trainingsprozess dargestellt und auf seine Vorteile und Herausforderungen eingegangen werden.
Speakers: Thomas Schmidt