Automatisierte Texterkennung mit der freien Software Tesseract

Bibliothekartag 2020

Viele Bibliotheken und Archive digitalisieren ihre historischen Druckwerke und machen diese auch im Internet zugänglich. Aber erst mit durchsuchbarem Text, der auch maschinell weiterverarbeitet werden kann, wird der historische Schatz wirklich gut erschlossen, und Alte Drucke werden zu modernen Forschungsdaten. Wer dies erkannt hat, verlässt sich häufig noch auf einen externen Dienstleister für die automatisierte Texterkennung per Software - die sogenannte OCR ("optical character recognition", also optische Zeichenerkennung).
Das Hands-On-Lab bietet die Möglichkeit, OCR einmal selbst auszuprobieren, auf dem eigenen Notebook die Software Tesseract zu installieren und damit erste Gehversuche zur automatisierten Texterkennung zu machen. Vorlage können mitgebrachte Scans von Seiten aus historischen Büchern oder Beispiele aus dem Internet sein. Fortgeschrittene Anwender erhalten einen Einblick in das Training neuer oder verbesserter Modelle für die Texterkennung.
Tesseract entstand in den 80er Jahren, wird aber bis heute aktiv weiterentwickelt und gepflegt und gehört mit zu den leistungsfähigsten Produkten für OCR. So ist es auch eine wichtige Komponente von OCR-D, der Koordinierten Förderinitiative zur Weiterentwicklung von Verfahren für die Optical Character Recognition (OCR) der Deutschen Forschungsgemeinschaft (DFG). Die Universitätsbibliothek Mannheim hat im Rahmen von OCR-D Tesseract weiterentwickelt und ist eine der Pilotbibliotheken von OCR-D. Die dabei gemachten Erfahrungen werden ebenfalls kurz vorgestellt.
Bitte eigenes Notebook (Windows, macOS oder Linux) mitbringen!

Stefan Weil¹, Jan Kamlah¹, Philipp Zumstein¹
¹Universitätsbibliothek Mannheim, Mannheim, Deutschland

Speakers: Stefan Weil Jan Kamlah Philipp Zumstein