Das DFG-geförderte Projekt OCR-D (https://ocr-d.de/) befasst sich seit 2015 konzeptionell und praktisch mit der Verbesserung von Verfahren zur automatischen Text- und Strukturerfassung von digitalisierten historischen Drucken aus dem 16.-19. Jahrhundert. Übergeordnetes Ziel ist es, elektronisch lesbaren, wissenschaftlich verwertbaren Volltext für Titel der “Verzeichnisse der im deutschen Sprachraum erschienenen Drucke” (VD) zu gewinnen.
Dazu wurden in der ersten Projektphase Verbesserungspotenziale ermittelt, die in der zweiten Projektphase bis zum Frühjahr 2020 von insgesamt acht zusätzlichen DFG-geförderten Modulprojekten bearbeitet werden. Die entwickelte quelloffene, modular aufgebaute Software wird zwischen November 2019 und Januar 2020 erstmals in neun Pilotbibliotheken getestet. Dabei werden die OCR-D-Software und die zugehörige Dokumentation auf ihre Praxistauglichkeit und Akzeptanz bei ihren potentiellen künftigen Nutzern hin getestet, indem sie in unterschiedlichen Bibliotheksumgebungen an verschiedenartigen Korpora angewendet werden.
In der öffentlichen Arbeitssitzung werden die Ergebnisse dieser ersten Praxisphase sowie ggf. offene Desiderate der Pilotbibliotheken an die OCR-D-Software vorgestellt und diskutiert. Zudem wird die weitere geplante Entwicklung der Software und die Verfügbarkeit und Standardisierung von geeigneten Trainings- und Evaluationsdaten besprochen.
Die Sitzung richtet sich neben den Projektbeteiligten an alle bestandshaltenden Einrichtungen wie Bibliotheken, Archive, etc., die Interesse an der OCR-D-Software haben und diese vielleicht in ihren eigenen Häusern testen und implementieren möchten. Die Veranstaltung schließt an die letztjährige Projektsitzung auf dem Bibliothekartag an, bei der mit Dienstleistern und Anwendern über die künftige Implementierung der OCR-D-Software in bestehende Workflows und Systeme diskutiert wurde.
Elisabeth Engl1, Matthias Boenig2
1Herzog-August-Bibliothek, Wolfenbüttel, Deutschland, 2Berlin-Brandenburgische Akademie der Wissenschaften, Berlin, Deutschland
Speakers: Elisabeth Engl Matthias Boenig