Viele Bibliotheken und Archive digitalisieren ihre historischen Druckwerke und machen diese auch im Internet zugĂ€nglich. Aber erst mit durchsuchbarem Text, der auch maschinell weiterverarbeitet werden kann, wird der historische Schatz wirklich gut erschlossen, und Alte Drucke werden zu modernen Forschungsdaten. Wer dies erkannt hat, verlĂ€sst sich hĂ€ufig noch auf einen externen Dienstleister fĂŒr die automatisierte Texterkennung per Software - die sogenannte OCR ("optical character recognition", also optische Zeichenerkennung).
Das Hands-On-Lab bietet die Möglichkeit, OCR einmal selbst auszuprobieren, auf dem eigenen Notebook die Software Tesseract zu installieren und damit erste Gehversuche zur automatisierten Texterkennung zu machen. Vorlage können mitgebrachte Scans von Seiten aus historischen BĂŒchern oder Beispiele aus dem Internet sein. Fortgeschrittene Anwender erhalten einen Einblick in das Training neuer oder verbesserter Modelle fĂŒr die Texterkennung.
Tesseract entstand in den 80er Jahren, wird aber bis heute aktiv weiterentwickelt und gepflegt und gehört mit zu den leistungsfĂ€higsten Produkten fĂŒr OCR. So ist es auch eine wichtige Komponente von OCR-D, der
Koordinierten Förderinitiative zur Weiterentwicklung von Verfahren fĂŒr die Optical Character Recognition (OCR) der Deutschen Forschungsgemeinschaft (DFG). Die UniversitĂ€tsbibliothek Mannheim hat im Rahmen von OCR-D Tesseract weiterentwickelt und ist eine der Pilotbibliotheken von OCR-D. Die dabei gemachten Erfahrungen werden ebenfalls kurz vorgestellt.
Bitte eigenes Notebook (Windows, macOS oder Linux) mitbringen!
Stefan Weil1, Jan Kamlah
1, Philipp Zumstein
11UniversitÀtsbibliothek Mannheim, Mannheim, Deutschland
Tweet