conferences | speakers | series

S86: Automatische Generierung von strukturiertem TEI-Volltext aus METS-XML

home

S86: Automatische Generierung von strukturiertem TEI-Volltext aus METS-XML
Bibliothekartag 2020

Session: Präsentation und Erschließung von digitalem Content (S86)

Das von der Text Encoding Initiative (TEI) entwickelte XML-Format zur Repräsentation digitaler Volltexte ist ein weitverbreiteter Standard in den Text be- und verarbeitenden Wissenschaften und wird in vielen Forschungsprojekten und -infrastrukturen verwendet. Digitale Volltexte in Bibliotheken werden zu meist im Format Analyzed Layout and Text Object (ALTO) vorgehalten, während die logische Struktur der Dokumente in Dateien im Format Metadata Encoding & Transmission Standard (METS) referenziert wird. Die Verknüpfung zwischen beiden Ebenen erfolgt lediglich auf Seitenebene. Darin liegt der wesentliche Unterschied zu TEI, wo die Strukturierung der Dokumente inline - also direkt im Volltext - erfolgt. Die generelle Natur der Strukturauszeichnung mit Hilfe verschachtelter div-Elemente ist beiden Formaten gemein. Somit besteht die primäre Herausforderung bei der Erzeugung von strukturierten TEI-Volltexten aus METS-ALTO-Objekten in der korrekten Lokalisierung der Strukturelemente auf den einzelnen Seiten. Zu diesem Zweck wird an der SLUB das Programm mets-mods2tei (https://github.com/slub/mets-mods2tei) entwickelt, das den minimalen Editierabstands (Lewenstein 1965) zwischen manuell erfassten Strukturauszeichnungen (bzw. deren Labeln) und dem meist automatisch per OCR erzeugtem, digitalen Volltext als Platzierungskriterium nutzt. Das erzeugte TEI orientiert sich am Basisformat des Deutschen Textarchivs (DTA, Haaf et al. 2014/15). Es enthält neben dem strukturierten Volltext auch umfangreiche, aus Metadata Object Description Schema-kompatiblem XML extrahierte Metadaten und kann sowohl als Ausgangspunkt für Editionsvorhaben als auch als Grundlage für quantitative Korpusauswertungen dienen.
Im Vortrag wird das hier skizzierte Vorgehen anhand von Beispielen illustriert und auf aktuelle Herausforderungen, die etwa durch stillschweigende Normalisierung auf METS- und schlechte Textqualität auf ALTO-Seite entstehen, eingegangen.

Kay-Michael Würzner1
1Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden, Digitale Objekte, Dresden, Deutschland

Tweet

Speakers: Kay-Michael Würzner