Viele Bibliotheken und Archive digitalisieren ihre historischen Druckwerke und machen diese auch im Internet zugänglich. Aber erst mit durchsuchbarem Text, der auch maschinell weiterverarbeitet werden kann, wird der historische Schatz wirklich gut erschlossen, und Alte Drucke werden zu modernen Forschungsdaten. Wer dies erkannt hat, verlässt sich häufig noch auf einen externen Dienstleister für die automatisierte Texterkennung per Software - die sogenannte OCR ("optical character recognition", also optische Zeichenerkennung).
Das Hands-On-Lab bietet die Möglichkeit, OCR einmal selbst auszuprobieren, auf dem eigenen Notebook die Software Tesseract zu installieren und damit erste Gehversuche zur automatisierten Texterkennung zu machen. Vorlage können mitgebrachte Scans von Seiten aus historischen Büchern oder Beispiele aus dem Internet sein. Fortgeschrittene Anwender erhalten einen Einblick in das Training neuer oder verbesserter Modelle für die Texterkennung.
Tesseract entstand in den 80er Jahren, wird aber bis heute aktiv weiterentwickelt und gepflegt und gehört mit zu den leistungsfähigsten Produkten für OCR. So ist es auch eine wichtige Komponente von OCR-D, der
Koordinierten Förderinitiative zur Weiterentwicklung von Verfahren für die Optical Character Recognition (OCR) der Deutschen Forschungsgemeinschaft (DFG). Die Universitätsbibliothek Mannheim hat im Rahmen von OCR-D Tesseract weiterentwickelt und ist eine der Pilotbibliotheken von OCR-D. Die dabei gemachten Erfahrungen werden ebenfalls kurz vorgestellt.
Bitte eigenes Notebook (Windows, macOS oder Linux) mitbringen!
Stefan Weil1, Jan Kamlah
1, Philipp Zumstein
11Universitätsbibliothek Mannheim, Mannheim, Deutschland
Tweet