Abstract Text: Die Deutsche Nationalbibliothek (DNB) baut derzeit ein neues System zur automatischen Inhaltserschließung auf. Das Erschließungssystem wird modular entwickelt, damit einzelne Funktionen und unterschiedliche Verfahren flexibel kombiniert, ausgetauscht oder ergänzt werden können. Durch die Modularität und die Flexibilität soll eine kontinuierliche Verbesserung der Erschließungsergebnisse und eine bessere Wartbarkeit ermöglicht werden. Als Verfahren für den produktiven Einsatz wurde u.a. erfolgreich Annif evaluiert, ein Open-Source-Werkzeugkasten zur automatischen Klassifizierung und Indexierung, entwickelt an der Finnischen Nationalbibliothek [1].
Im Vortrag werden Ergebnisse der automatischen Indexierung deutschsprachiger Publikationen mit Schlagwörtern der Gemeinsamen Normdatei (GND) vorgestellt. In diesem Anwendungsfall stehen 1,3 Millionen GND-Schlagwörter für die Inhaltserschließung zur Verfügung, die automatisch den Publikationen zugeordnet werden können. Erfahrungen mit verschiedenen Algorithmen werden präsentiert, Unterschiede von lexikalischen versus lernenden Verfahren im Anwendungsfall GND herausgearbeitet und analysiert.
Desweiteren wird die technische Integration von Annif in den produktiven Workflow veranschaulicht: Von der Textbereitstellung und der Identifizierung der Sprache des Textes, zur Auswahl des geeigneten Annif-Verfahrens bis hin zur Aktualisierung des bibliographischen Datensatzes.
[1] http://annif.org/