Leben gelabelt Computergestützte Inhaltverzeichnisse für Oral-History-Interviews

Hauptsächlicher Artikelinhalt

Philipp Bayerschmidt, Dennis Möbus

Abstract

Maschinelle Methoden zur Inhaltserschließung dienen nicht nur dazu, statistische Ergebnisse zu erzielen. Die quantitativen Ergebnisse können auch qualitativ genutzt werden, um Muster und Themenverläufe in den untersuchten Texten aufzufinden. Dieser Aufsatz dokumentiert, wie aus einem Korpus lebensgeschichtlicher Interviews, zusammengestellt aus Sammlungen des Portals Oral-History.Digital (oh.d), mithilfe von Topic Modeling – einer Methode des maschinellen Lernens – ein Themenverzeichnis für alle in oh.d repräsentierten Interviews erstellt wurde. Dieses Themenverzeichnis dient einerseits als Register zur archivübergreifenden Suche, andererseits ist es Grundlage automatisch generierter Inhaltsverzeichnisse für die Interviews. Nach einem Überblick über die gängigsten Methoden zur automatischen Inhaltserschließung von Texten, wird der gesamte Prozess von der Zusammenstellung des Korpus bis zum fertigen Themenverzeichnis und exemplarischen Inhaltsverzeichnissen transparent dargestellt. Die Voreinstellung aller Parameter, von der Größe der Abschnitte bis zur Anzahl der Topics, stellt bisher eine große Herausforderung dar. Automatisierte Prozesse konnten keine eindeutigen Ergebnisse liefern, weshalb ein qualitativer Ansatz vorgeschlagen wird, bei dem die Annäherung an die optimale Anzahl der Topics über ein Zoom-in- und Zoom-out-Verfahren (Scalable Reading) evaluiert wird. Eine Gruppe erfahrener Oral Historians labelte anschließend die einzelnen Topics und führte ähnliche Topics zu Clustern zusammen. Abschließend wurden die gelabelten Topics als Register in die oh.d-Plattform implementiert. Auf dieser Grundlage können Inhaltsverzeichnisse für alle Interviews erstellt werden.


Bibliographie: Bayerschmidt, Philipp/Möbus, Dennis: Leben gelabelt. Computergestützte Inhaltverzeichnisse für Oral-History-Interviews, BIOS – Zeitschrift für Biographieforschung, Oral History und Lebensverlaufsanalysen, 1+2-2025, S. 83-104.

Artikel-Details

Erscheinungsdatum: März 2026
Open Access ab: 02.03.2028
Open-Access-Lizenz: CC BY 4.0

Literatur

Horstmann, Jan (2018): Topic Modeling. In: forTEXT. Literatur digital erforschen. Online: https://fortext.net/routinen/methoden/topic-modeling (14.9.2025).

Hoyle, Alexander, Pranav Goel, Denis Peskov, Andrew Hian-Cheong, Jordan Boyd-Graber und Philip Resnik (2021): Is Automated Topic Model Evaluation Broken? The Incoherence of Coherence. In: 35th Conference on Neural Information Processing Systems (NeurIPS) 2021, Online als PDF: https://proceedings.neurips.cc/paper/2021/file/0f83556a305d789b1d71815e8ea4f4b0-Pa-per.pdf.

Krautter, Benjamin (2024): The Scales of (Computational) LiteraryStudies: Martin Mueller’s Conceptof Scalable Reading in Theory and Practice. In: Florentina Armaselu und Andreas Fickers (Hg.): Zoomland: Exploring Scale in Digital History and Humanities, Berlin, Boston: De Gruyter Oldenbourg, 261-286. https://doi.org/10.1515/9783111317779-011

Loos, Peter und Burkhard Schäffer (2001): Das Gruppendiskussionsverfahren. Theoretische Grundlagen und empirische Anwendung, Qualitative Sozialforschung, Bd. 5, Opladen: Leske und Budrich.

Möbus, Dennis (2025): Interview Chronology Analysis (ICA). Verläufe von (lebensgeschichtlichen) Interviews visuell analysieren, In: Nils Reiter, Thomas Haider, Daniel Kababgi und Hendrik Buschmeier (Hg.) Under Construction. Book of Abstracts - DHd 2025, 11. DHd-Tagung 3.-7. März 2025 Bielefeld, 61-64. https://doi.org/10.5281/zenodo.14887460

Mosqueira-Rey, Eduardo, Elena Hernández-Pereira, David Alonso-Ríos, José Bobes-Bascarán, und Ángel Fernández-Leal (2023): Human-in-the-loop machine learning: a state of the art. In: Artificial Intelligence Review, 56, 3005-3054. https://doi.org/10.1007/s10462-022-10246-w

Pagenstecher, Cord (2024): Oral-History.Digital: Eine Erschließungs- und Rechercheplattform für audio-visuelle narrative Forschungsdaten. In: O-Bib. Das Offene Bibliotheksjournal, 11, Heft 1, 1-8. https://doi.org/10.5282/o-bib/6007

Rawson, Katie und Trevor Muñoz (2019): Against Cleaning. In: Matthew K. Gold und Lauren F. Klein (Hg.): Debates in the Digital Humanities 2019. Debates in the Digital Humanities, Minneapolis: University of Minnesota Press.

Schöch, Christof, Frédéric Döhl, Achim Rettinger, Evelyn Gius, Peer Trilcke, Peter Leinen, Fotis Jannidis, Maria Hinzmann und Jörg Röpke (2020): Abgeleitete Textformate: Text und Data Mining mit urheberrechtlich geschützten Textbeständen. In: Zeitschrift für digitale Geisteswissenschaften, 5, Heft 5.

Mehr lesen