Abstract Text: Bibliotheken und Archive in Deutschland arbeiten seit einigen Jahren mit freien oder kommerziellen OCR-Lösungen, um aus digitalisierten BestÀnden Volltexte zu generieren. Die Fehlerrate der Texterkennung und die damit verbundene Nutzbarkeit der Volltexte variieren hierbei stark. Besonders Druckwerke des 16. bis 19. Jahrhunderts stellen OCR-Lösungen vor Herausforderungen: historische Schriften (beispielsweise Fraktur), heterogene Satzspiegel und typographische Besonderheiten können die Texterkennung erschweren. Dabei profitieren meist genau diese BestÀnde von qualitativ hochwertigen Volltexten, denn teils existieren nur noch wenige physische Exemplare eines historischen Drucks oder die konservatorischen Bedingungen lassen eine Nutzung in situ nicht zu. Der digitale Volltext gewinnt hier eine wichtige Rolle, um historische Druckwerke zugÀnglich zu machen.
Mithilfe eines werkspezifischen Nachtrainings lĂ€sst sich die QualitĂ€t der Texterkennung signifikant erhöhen. Als Bestandteil eines allgemeineren Trainingsprozesses von OCR-Lösungen, der die Fehlerrate fĂŒr eine groĂe Bandbreite von Schriften und Druckwerken reduziert, dient ein werkspezifisches Nachtraining der Feinjustierung der Texterkennung. Auch können so besondere Glyphen (z. B. astronomische Symbole, aber auch Zeichen wie die Siegrune der NS-Zeit), die fĂŒr bestimmte Anwendungszwecke eine besondere Relevanz besitzen, von gĂ€ngigen OCR-Lösungen allerdings nicht erkannt werden, nachtrainiert werden. Im Rahmen des DFG-geförderten Koordinierungsprojekts âOCR-Dâ realisiert die UniversitĂ€tsbibliothek Mannheim derzeit anwenderfreundliches werkspezifisches Training. Anhand ausgewĂ€hlter Beispiele soll ein solcher Trainingsprozess dargestellt und auf seine Vorteile und Herausforderungen eingegangen werden.