Session: Beteiligungskulturen und Daten (S135)
Verbesserung von automatischer Handschriftenerkennung durch bürgerwissenschaftlich unterstützte Transkription
K.-M. Würzner1, R. Sachunsky2, A. Lasch3
1Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden, Referat Open Science, Dresden, Deutschland, 2Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden, Referat Digitale Objekte, Dresden, Deutschland, 3Technische Universität Dresden, Institut für Germanistik, Dresden, Deutschland
Bei der Transkription von Materialien, die in historischen, heute nicht mehr verwendeten Schriftarten, wie zum Beispiel Kurrent oder Sütterlin, vorliegen, stellt sich das spezielle Problem, dass heute nur wenige Menschen in der Lage sind, diese lesen zu können. Die Einbindung von Freiwilligen, bspw. im Rahmen von Crowd-Sourcing-Projekten, in die Transkriptionsaufgabe stellt also nicht nur das quantitative Problem der Akquise von Beteiligung, sondern auch ein qualitatives Problem, der Beteiligungswilligen ein geeignetes, zugängliches Tooling bereitzustellen.
Im Umfeld des Projekthubs Herrnhut Digital werden in einem Podcast ausgewählte Passagen aus den Nachrichten veröffentlicht, die Kurrentkundige eingesprochen haben. Um diese für die Optimierung der optischen Texterkennung nutzbar zu machen, verwenden wir eine akustische Texterkennung zur Erzeugung einer Vorstufe der benötigten Trainingsdaten. Dieser Umweg stellt somit eine einfache Brücke zwischen älteren, häufig nicht technikaffinen Bürgerinnen und Bürgern und der anspruchsvollen Transkriptionsaufgabe her.
In unserem Vortrag illustrieren wir unser Vorgehen und zeigen außerdem, wie die gewonnenen Daten mit Hilfe eines iterativen Trainingsprozesses möglichst effizient für die Erstellung von Modellen für die Handschriftenerkennung eingesetzt werden können.
Speakers: Kay-Michael Würzner