conferences | speakers | series

S135: Verbesserung von automatischer Handschriftenerkennung durch bürgerwissenschaftlich unterstützte Transkription

home

S135: Verbesserung von automatischer Handschriftenerkennung durch bürgerwissenschaftlich unterstützte Transkription
Bibliothekskongress 2022

Session: Beteiligungskulturen und Daten (S135)

Verbesserung von automatischer Handschriftenerkennung durch bürgerwissenschaftlich unterstützte Transkription
K.-M. Würzner1, R. Sachunsky2, A. Lasch3
1Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden, Referat Open Science, Dresden, Deutschland, 2Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden, Referat Digitale Objekte, Dresden, Deutschland, 3Technische Universität Dresden, Institut für Germanistik, Dresden, Deutschland

Abstract Text: Im Kontext der Digitalisierung der Herrnhuter Nachrichten aus der Brüder-Gemeine in ihrer handschriftlichen, ungekürzten Version, die im Rahmen des Landesdigitalisierungsprojektes Sachsen gemeinsam durch das Unitätsarchiv Herrnhut und die Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden durchgeführt wird, experimentieren wir mit Verfahren der automatischen Texterkennung, um die entstehenden Bilder um einen maschinenlesbaren Volltext zu ergänzen. Verfügbare, quelloffene Lösungen liefern jedoch keine Modelle für die Handschriftenerkennung mit, sodass diese im Vorfeld mit Hilfe manuell transkribierter Volltexte trainiert werden müssen.
Bei der Transkription von Materialien, die in historischen, heute nicht mehr verwendeten Schriftarten, wie zum Beispiel Kurrent oder Sütterlin, vorliegen, stellt sich das spezielle Problem, dass heute nur wenige Menschen in der Lage sind, diese lesen zu können. Die Einbindung von Freiwilligen, bspw. im Rahmen von Crowd-Sourcing-Projekten, in die Transkriptionsaufgabe stellt also nicht nur das quantitative Problem der Akquise von Beteiligung, sondern auch ein qualitatives Problem, der Beteiligungswilligen ein geeignetes, zugängliches Tooling bereitzustellen.
Im Umfeld des Projekthubs Herrnhut Digital werden in einem Podcast ausgewählte Passagen aus den Nachrichten veröffentlicht, die Kurrentkundige eingesprochen haben. Um diese für die Optimierung der optischen Texterkennung nutzbar zu machen, verwenden wir eine akustische Texterkennung zur Erzeugung einer Vorstufe der benötigten Trainingsdaten. Dieser Umweg stellt somit eine einfache Brücke zwischen älteren, häufig nicht technikaffinen Bürgerinnen und Bürgern und der anspruchsvollen Transkriptionsaufgabe her.
In unserem Vortrag illustrieren wir unser Vorgehen und zeigen außerdem, wie die gewonnenen Daten mit Hilfe eines iterativen Trainingsprozesses möglichst effizient für die Erstellung von Modellen für die Handschriftenerkennung eingesetzt werden können.

Tweet

Speakers: Kay-Michael Würzner