Session: Sammeln, Archivieren, Präsentieren (S142)
Sammeln im Digitalen Zeitalter. Die Bibliothek als Datenprovider für maßgeschneiderte Textkorpora
J. Freund1
1Universitäts- und Landesbibliothek Darmstadt, Abteilung für Bestandsentwicklung und Erschließung, Darmstadt, Deutschland
Um ihren Zielgruppen künftig Inhalte für innovative Forschungs- und Analysemethoden, wie z.B. Text und Data Mining, Topic Modeling oder Sentiment Analysis, in dafür besonders geeigneten, strukturierten Datenformaten anbieten zu können, baut die Universitäts- und Landesbibliothek Darmstadt (ULB) gegenwärtig ein Repositorium digitaler Medien auf. Dieses soll neben Open-Access-Inhalten perspektivisch auch Content aus lizenzierten Produkten umfassen. Ziel ist es, Wissenschaftler:innen die Möglichkeit zu geben, sich je nach Forschungsthema ein passgenaues Textkorpus mit möglichst breiter Datenbasis unter Beachtung der geltenden Urheberrechtsbestimmungen zusammenzustellen.
Für den Aufbau des Repositoriums und die Bereitstellungswege entwickelt die ULB einen speziellen „Workflow Digitale Medien“ (WDM), der sämtliche Prozesse von der Erwerbung bzw. dem Harvesten der Inhalte inkl. Rechteklärung, über die Konversion in ein maschinenlesbares Datenformat bis hin zur Katalogisierung, Bereitstellung und Langzeitarchivierung umfasst. Perspektivisch sollen die einzelnen Schritte größtenteils automatisiert ablaufen, um Massenimporte zu realisieren. Für die Datenkonversion wurde ein spezielles XML-Zielformat erstellt, welches sich am international etablierten Standard der TEI (Text Encoding Initiative) orientiert und auf dessen Grundlage weitere Exportformate bedarfsgerecht generiert werden können.
Der Vortrag stellt den Workflow Digitale Medien anhand eines praktischen Beispiels vor und geht auch auf existierende Herausforderungen (Rechteklärung, Datenqualität und -heterogenität etc.) sowie Forschungspotenziale von digitalen Sammlungen ein.
Speakers: Jens Freund