conferences | speakers | series

S125: Automatische Inhaltserschließung an der Deutschen Nationalbibliothek

home

S125: Automatische Inhaltserschließung an der Deutschen Nationalbibliothek
Bibliothekskongress 2022

Session: Indexieren und Sortieren (S125)

Automatische Inhaltserschließung an der Deutschen Nationalbibliothek
S. Uhlmann1
1Deutsche Nationalbibliothek, Leipzig, Deutschland

Abstract Text: Die Deutsche Nationalbibliothek (DNB) baut derzeit ein neues System zur automatischen Inhaltserschließung auf. Das Erschließungssystem wird modular entwickelt, damit einzelne Funktionen und unterschiedliche Verfahren flexibel kombiniert, ausgetauscht oder ergänzt werden können. Durch die Modularität und die Flexibilität soll eine kontinuierliche Verbesserung der Erschließungsergebnisse und eine bessere Wartbarkeit ermöglicht werden. Als Verfahren für den produktiven Einsatz wurde u.a. erfolgreich Annif evaluiert, ein Open-Source-Werkzeugkasten zur automatischen Klassifizierung und Indexierung, entwickelt an der Finnischen Nationalbibliothek [1].
Im Vortrag werden Ergebnisse der automatischen Indexierung deutschsprachiger Publikationen mit Schlagwörtern der Gemeinsamen Normdatei (GND) vorgestellt. In diesem Anwendungsfall stehen 1,3 Millionen GND-Schlagwörter für die Inhaltserschließung zur Verfügung, die automatisch den Publikationen zugeordnet werden können. Erfahrungen mit verschiedenen Algorithmen werden präsentiert, Unterschiede von lexikalischen versus lernenden Verfahren im Anwendungsfall GND herausgearbeitet und analysiert.
Desweiteren wird die technische Integration von Annif in den produktiven Workflow veranschaulicht: Von der Textbereitstellung und der Identifizierung der Sprache des Textes, zur Auswahl des geeigneten Annif-Verfahrens bis hin zur Aktualisierung des bibliographischen Datensatzes.
[1] http://annif.org/

Tweet

Speakers: Sandro Uhlmann