conferences | speakers | series

S129: OCR-BW: Automatische Texterkennung von Handschriften

home

S129: OCR-BW: Automatische Texterkennung von Handschriften
Bibliothekskongress 2022

Session: 95, 96 oder 100 Prozent. OCR-D (S129)

OCR-BW: Automatische Texterkennung von Handschriften
K. Stöbener1, D. Huff1
1Universitätsbibliothek Tübingen, Handschriften und Historische Drucke, Tübingen, Deutschland

Abstract Text: Nach der Digitalisierung von historischen Dokumenten ist der nächste konsequente Schritt die Anreicherung der Digitalisate im Präsentationssystem mit einem durchsuchbaren Volltext, um die Zugänglichkeit zu den Texten weiter zu erhöhen und neue Forschungsfragen an das Material zu ermöglichen. Während in vielen Bibliotheken bereits verschiedene Möglichkeiten zur automatischen Texterkennung von historischen Druckwerken genutzt werden, ist die Zurückhaltung bei Handschriften vielfach höher, da handschriftliche Quellen die automatische Texterkennung vor neue Herausforderungen stellen. Mithilfe von Machine Learning wurden auf dem Feld der automatischen Handschriftenerkennung in den letzten Jahren jedoch große Fortschritte gemacht, die von Bibliotheken genutzt werden können, um ihre eigenen Bestände weiter zu erschließen, aber auch, um sich als Servicepartnerin für die Wissenschaft zu etablieren.
Im Rahmen des Projekts OCR-BW (https://ocr-bw.bib.uni-mannheim.de/) werden seit 2019 Transkribus und ab 2021 auch eScriptorium für die Erzeugung von automatischen Volltexten für Handschriften systematisch an ausgewählten Corpora getestet. Die im bisherigen Projektverlauf erzielten Ergebnisse sind sehr positiv und zeigen, dass eine automatische Handschriftenerkennung mit einer Zeichenfehlerrate von unter 5 % möglich und erwartbar ist. Bereits veröffentlichte Volltexte haben die Sichtbarkeit und das Forschungsinteresse an diesen Materialien deutlich erhöht. Das Projekt zielt außerdem darauf ab, die Wissenschaft bei der Vorbereitung und Durchführung von Forschungsvorhaben zu unterstützen. An Beispielen vom mittelalterlichen Gebetbuch über Großbestände wie Juristische Konsilien bis hin zum Expeditionstagebuch des 20. Jahrhunderts soll gezeigt werden, mit welchem Ressourcenaufwand welche Ergebnisse erzielt werden können.

Tweet

Speakers: Dorothee Huff