conferences | speakers | series

S142: Sammeln im Digitalen Zeitalter. Die Bibliothek als Datenprovider für maßgeschneiderte Textkorpora

home

S142: Sammeln im Digitalen Zeitalter. Die Bibliothek als Datenprovider für maßgeschneiderte Textkorpora
Bibliothekskongress 2022

Session: Sammeln, Archivieren, Präsentieren (S142)

Sammeln im Digitalen Zeitalter. Die Bibliothek als Datenprovider für maßgeschneiderte Textkorpora
J. Freund1
1Universitäts- und Landesbibliothek Darmstadt, Abteilung für Bestandsentwicklung und Erschließung, Darmstadt, Deutschland

Abstract Text: Im Zeitalter Digitaler Medien wandeln sich auch die Sammlungs- und Erschließungskonzepte von Bibliotheken. Anders als gedruckte Bücher und Zeitschriften sind digitale Objekte ortsungebunden, maschinenlesbar, von einer unbegrenzten Anzahl an Nutzer:innen gleichzeitig rezipierbar, verlustfrei kopierbar sowie auch relativ einfach manipulierbar. 
Um ihren Zielgruppen künftig Inhalte für innovative Forschungs- und Analysemethoden, wie z.B. Text und Data Mining, Topic Modeling oder Sentiment Analysis, in dafür besonders geeigneten, strukturierten Datenformaten anbieten zu können, baut die Universitäts- und Landesbibliothek Darmstadt (ULB) gegenwärtig ein Repositorium digitaler Medien auf. Dieses soll neben Open-Access-Inhalten perspektivisch auch Content aus lizenzierten Produkten umfassen. Ziel ist es, Wissenschaftler:innen die Möglichkeit zu geben, sich je nach Forschungsthema ein passgenaues Textkorpus mit möglichst breiter Datenbasis unter Beachtung der geltenden Urheberrechtsbestimmungen zusammenzustellen.
Für den Aufbau des Repositoriums und die Bereitstellungswege entwickelt die ULB einen speziellen „Workflow Digitale Medien“ (WDM), der sämtliche Prozesse von der Erwerbung bzw. dem Harvesten der Inhalte inkl. Rechteklärung, über die Konversion in ein maschinenlesbares Datenformat bis hin zur Katalogisierung, Bereitstellung und Langzeitarchivierung umfasst. Perspektivisch sollen die einzelnen Schritte größtenteils automatisiert ablaufen, um Massenimporte zu realisieren. Für die Datenkonversion wurde ein spezielles XML-Zielformat erstellt, welches sich am international etablierten Standard der TEI (Text Encoding Initiative) orientiert und auf dessen Grundlage weitere Exportformate bedarfsgerecht generiert werden können. 
Der Vortrag stellt den Workflow Digitale Medien anhand eines praktischen Beispiels vor und geht auch auf existierende Herausforderungen (Rechteklärung, Datenqualität und -heterogenität etc.) sowie Forschungspotenziale von digitalen Sammlungen ein.

Tweet

Speakers: Jens Freund