Standards, Vokabulare und KI-Technologien für die qualitative Datenanalyse von Oral-History-Interviews
Main Article Content
Abstract
The article describes how oral history is undergoing fundamental change in the course of digital transformation and the role played by standards, vocabularies, and AI technologies. The starting point is the greatly expanded volume of oral history interviews, which are becoming more accessible through portals such as Oral-History.Digital (oh.d). Three waves of digitization are outlined: first, the technically facilitated recording process; second, the establishment of research infrastructures and the automated transcription using speech recognition, which makes interviews usable as “research data” on a much larger scale; and third, the AI-driven surge that introduces new possibilities for entity recognition and contextualized qualitative analysis. The article traces the workflow of digitization, which ideally ranges from the initial digital capture, through (automated) transcription and the detection of text units/entities (e.g., via NER), to the identification and disambiguation of these entities and their linkage with authority data and controlled vocabularies, and finally to long-term archiving and licensing in accordance with the FAIR and CARE principles. The text highlights the role of vocabularies and taxonomies in this process, which have evolved from library classification tools into knowledge bases for entities equipped with analytical categories and measurement criteria. Through Linked Open Data and authority files, they enable information enrichment, for example by adding geocoordinates with historical contextual data or occupational classifications.
Bibliography: Moeller, Katrin: Das (vermeintliche) Scheitern von narrativen Interviews. Zum Erkenntnispotenzial von Interviewdynamiken, BIOS – Zeitschrift für Biographieforschung, Oral History und Lebensverlaufsanalysen, 1+2-2025, pp. 105-123.
Article Details
Literature
Allison-Cassin, Stacy und Dan Scott (2018): Wikidata: a platform for your library’s linked open data. In: Code4lib Journal, Issue 40, 4.5.2018, https://journal.code4lib.org/articles/13424 (8.10.2025).
Altenhöner, Reinhard, Andreas Berger, Christian Bracht, Paul Klimpel, Sebastian Meyer, Andreas Neuburger und Thomas Stäcker (2023): DFG-Praxisregeln „Digitalisierung“. Aktualisierte Fassung 2022, in: Zenodo, 16.2.2023. https://doi.org/10.5281/zenodo.7435724
Boros, Emanuela, Ahmed Hamdi, Elvys Linhares Pontes, Luis-Adrián Cabrera-Diego, José G. Moreno, Nicolas Sidere und Antoine Doucet (2020): Alleviating digitization erros in named entity recognition for historical documents. In: Proceedings oft he 24th Conference on Computational Natural Language Learning, 431-441. https://doi.org/10.18653/v1/2020.conll-1.35
Brandenburg, Hajo, Rolf Gehrmann, Kersten Krüger, Andreas Künne und Jörn Rüffer (1991): Berufe in Altona. Berufssystematik für eine präindustrielle Stadtgesellschaft anhand der Volkszählung. Kiel: Arbeitskreis für Wirtschafts- und Sozialgeschichte Schleswig-Holsteins.
Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever and Dario Amodei (2020): Language Models are Few-Shot Learners. In: arXiv. https://doi.org/10.48550/arXiv.2005.14165
Cafiero, Florian und Marie Puren (2020): “On the record”. Transcribing and valorizing qualitative interviews with XML-TEI, International Conference on Computational Social Sci-ence, Jul 2020, Cambridge (MA), United States, Ottawa 2020. Online: https://hal.science/hal-02904901 (8.10.2025).
Cimiano, Philipp, Christian Chiarcos, John P. McCrae and Jorge Gracia (2020): Linguistic linked data. Representation, generation and applications, Cham: Springer. https://doi.org/10.1007/978-3-030-30225-2
Döring, Laura, Stefan Kellendonk, Marina Lemaire, Katrin Moeller und Stefan Büdenbender (2024): Umfragebericht zur Data Literacy Bedarfserhebung für die historisch arbeitenden Disziplinen (1.0). 4memory Working Paper Series, Nr. 2, Trier: Zenodo. https://doi.org/10.5281/zenodo.12189030
Dresing, Thorsten (2015): Praxisbuch Interview, Transkription & Analyse. Anleitungen und Re-gelsysteme für qualitativ Forschende, Marburg: Dr. Dresing und Pehl GmbH.
Ehrmann, Maud, Ahmed Hamdi, Elvys Linhares Pontes, Matteo Romanello, Antoine Doucet (2021): Named Entity Recognition and Classification in Historical Documents: A Survey. In: ACM Computing Survey, 56, Heft 2, 1-50. https://doi.org/10.48550/arXiv.2109.11406
Estermann, Beat, Adrian Gschwend, Stephan Haller und Edward Parrales (2020): Basisregister und kontrollierte Vokabulare als Wegbereiter für Linked Open Data in der Schweiz. Bern: Berner Fachhochschule. https://doi.org/10.24451/arbor.10249
Fertig, Georg und Sandro Guzzi-Heeb (Hg.) (2021): Genealogien. Zwischen populären Praktiken und akademischer Forschung, Jahrbuch für Geschichte des ländlichen Raumes, Bd. 18, Innsbruck, Wien: Studienverlag. Online: https://journals.univie.ac.at/index.php/rhy/issue/view/602/203 (8.10.2025).
Franken, Lina (2020): Kulturwissenschaftliches digitales Arbeiten. Qualitative Forschung als ‚digitale Handarbeit‘?. In: Berliner Blätter. Ethnographische und ethnologische Beiträge, Bd. 82: Digitale Arbeitskulturen. Rahmungen, Effekte, Herausforderungen, 107-118. Online: https://www.berliner-blaetter.de/index.php/blaetter/article/view/1069 (8.1.02025).
Freytag, Julian, Katja Liebing, Katrin Moeller, Anne Purschwitz, Olaf Simons und Marius Wegener (2024a): Codebuch zur LimeSurvey-Umfrage und FactGrid-Eintragung für das Register historischer und objektbezogener Vokabulare und Normdaten (R:hovono)/Code-book for the LimeSurvey survey and FactGrid entry for the register of historical and object-related vocabularies and authority data (R:hovono), Halle/Saale: Zenodo. https://doi.org/10.5281/zenodo.11031743
Freytag, Julian, Katja Liebing, Katrin Moeller, Anne Purschwitz, Olaf Simons und Marius We-gener (2024b): Dokumentation zum Register historischer und objektorientierter Vokabu-lare und Normdaten und Vokabulare (R:hovono)/Documentation on the register of histo-rical and object-orientated vocabularies and authority data and vocabularies (R:hovono), Halle/Saale: Zenodo. https://doi.org/10.5281/zenodo.11033367
Fuß, Susanne und Ute Karbach (2019): Grundlagen der Transkription. Eine praktische Einfüh-rung, UTB, Bd. 4185, Stuttgart, Toronto: UTB, Barbara Budrich. https://doi.org/10.36198/9783838550749
Hiltmann, Torsten, Martin Dröge, Nicole Dresselhaus, Till Grallert, Melanie Althage, Paul Bayer, Sophie Eckenstaler, Koray Mendi, Jascha Marijn Schmitz, Philipp Schneider, Wiebke Sczeponik und Anica Skibba (2025): NER4all or Context is All You Need: Using LLMs for low-effort, high-performance NER on historical texts. A humanities informed approach, in: ArXiv, Berlin, Ithaca 2025, https://doi.org/10.48550/arXiv.2502.04351.
Hodenberg, Christina von und Katrin Moeller (2020): Die Stimmen der Alten. Die BOLSA-For-schungsdaten als Quellen der deutschen Zeitgeschichte, in: Zeithistorische Forschun-gen/Studies in Contemporary History, 17, Heft 2, 403-421. https://doi.org/10.14765/zzf.dok-1944
König, Mareike (2025): ChatGPT und Co. in den Geschichtswissenschaften – Grundlagen, Prompts und Praxisbeispiele. In: Digital Humantities am DHIP, 19.8.2024, aktualisiert 29.9.2025. https://doi.org/10.58079/126eo
Leh, Almut (2023): Oral-History-Interviews als (digitale) Forschungsdaten. Von der Nachprüfbarkeit zur Nachnutzbarkeit – Forschungsdaten in der Geschichtswissenschaft, in: Helmuth Albrecht, Michael Farrenkopf, Helmut Maier und Torsten Meyer (Hg.): Historische Biographik und kritische Prosopographie als Instrumente in den Geschichtswissenschaften. Veröffentlichungen aus dem Deutschen Bergbau-Museum Bochum, Bd. 257, Bochum: De Gruyter Oldenbourg. https://doi.org/10.1515/9783111137063004
LIDER (Hg.) (2015): Guidelines and reference cards. Linked Data as an enabler of cross-media and multilingual content analytics for enterprises across Europe, https://lider-project.eu/lider-project.eu/indexc299.html?q=guidelines (9.10.2025).
Menzel, Sina, Hannes Schnaitter, Josefine Zinck, Vivien Petras, Clemens Neudecker, Kai Labusch, Elena Leitner und Georg Rehm (2021): Named Entity Linking mit Wikidata und GND – Das Potenzial handkuratierter und strukturierter Datenquellen für die semantische Anreicherung von Volltexten. In: Michale Franke-Maier, Anna Kasprzik, Andreas Ledl und Hans Schürmann (Hg.): Qualität in der Inhaltserschließung. Bibliotheks- und Informationspraxis, Bd. 70, Berlin, Boston: De Gruyter, Saur, 229-257. https://doi.org/10.1515/9783110691597-012
Moeller, Katrin und Anne Purschwitz (2025): Kontrollierte Vokabulare und Normdaten der historisch arbeitenden Disziplinen (Version 1.0). In: Zenodo, 2.7.2025. 10.5281/zenodo.15745567
Seemann, Michael (2023): Künstliche Intelligenz, Large Language Models, ChatGPT und die Arbeitswelt der Zukunft. In: Working Paper Forschungsförderung 304, Düsseldorf, September 2023, 1-101. Online als PDF: https://www.boeckler.de/de/faust-detail.htm?sync_id=HBS-008697.
Misoch, Sabina (20192): Qualitative Interviews. Berlin, Boston: De Gruyter Oldenbourg.
Moeller, Katrin (2019): Standards für die Geschichtswissenschaft! Zu differenzierten Funktionen von Normdaten, Standards und Klassifikationen für die Geisteswissenschaften am Beispiel von Berufsklassifikationen, in: Janna Kittelmann und Anne Purschwitz (Hg.): Aufklärungsforschung digital. Konzepte, Methoden, Perspektiven, Interdisziplinäres Zentrum für die Erforschung der Europäischen Aufklärung: Kleine Schriften des IZEA, Bd. 10, Halle/Saale: Mitteldeutscher Verlag, 17-43.
Moeller, Katrin (2022): Die Modellierung des zeitlichen Vergleichs als Kernkompetenz von Digital History? Fachliche Voraussetzungen und digitale Konzepte, in: Karoline Döring, Stefan Haas, Mareike König und Jörg Wettlaufer, (Hg.): Digital History. Konzepte, Methoden und Kritiken Digitaler Geschichtswissenschaft, Studies in digital history and hermeneutics, Bd. 6, Oldenbourg: De Gruyter, 83-106. https://doi.org/10.1515/9783110757101-005
Mozygemba, Kati und Betina Hollstein (2023): Anonymisierung und Pseudonymisierung qualitativer textbasierter Forschungsdaten. Eine Handreichung, Qualiservice Working Papers 5-2023, Bremen: Forschungsdatenzentrum (FDZ) Qualiservice Universität Bremen. https://doi.org/10.26092/elib/2525
Nicolai, Tom, Kati Mozygemba, Susanne Kretzer und Betina Hollstein (2021): QualiAnon – Qualiservice tool for anonymizing text data. Qualiservice, Bremen: Github. https://github.com/pangaea-data-publisher/qualianon
Pagenstecher, Cord und Annette Gerstenberg (2022): ‚Mi ricordo′, ‚je me souviens′: ich erinnere mich. Sammlungsübergreifende Interviewanalysen in Oral History und Korpuslinguistik, in: Apropos. Perspektiven auf die Romania, Heft 9: Digital, global, transdisziplinär: Impulse für die Romanistik, 213-239. https://doi.org/10.15460/apropos.9.1902
Pagenstecher, Cord (2017): Oral History und Digital Humanties. in: BIOS – Zeitschrift für Biographieforschung, Oral History und Lebensverlaufsanalysen, 20, Heft 1/2: Digital Humanities und biographische Forschung, 76-91. https://doi.org/10.3224/bios.v30i1-2.07
Pagenstecher, Cord (2024): Oral-History.Digital: Eine Erschließungs- und Rechercheplattform für audiovisuelle narrative Forschungsdaten, in: O-Bib. Das Offene Bibliotheksjournal, 11, Heft 1, 1-8. https://doi.org/10.5282/o-bib/6007
Pintscher, Lydia, Peter Bourgonje, Julián Moreno Schneider, Malte Ostendorff und Georg Rehm (2021): Wissensbasen für die automatische Erschließung und ihre Qualität am Beispiel von Wikidata. In: Michael Franke-Maier, Anna Kasprzik, Andreas Ledl und Hans Schürmann (Hg.): Qualität in der Inhaltserschließung. Qualität in der Inhaltserschließung. Bibliotheks- und Informationspraxis, Bd. 70, Berlin, Boston: De Gruyter, Saur, 71-92. https://doi.org/10.1515/9783110691597-005
Purschwitz, Anne und Jesper Zedlitz (2022): Vom gedruckten Gazetteer zum digitalen Ortsverzeichnis. In: Georg Fertig und Sandro Guzzi-Heeb (Hg.): Genealogien. Zwischen populären Praktiken und akademischer Forschung, Jahrbuch für Geschichte des ländlichen Raumes, Bd. 18, Innsbruck, Wien: Studienverlag, 250-268. Online: https://journals.uni-vie.ac.at/index.php/rhy/issue/view/602/203 (9.10.2025).
Schaar, Karin (2017): Die informierte Einwilligung als Voraussetzung für die (Nach-)nutzung von Forschungsdaten. Beitrag zur Standardisierung von Einwilligungserklärungen im Forschungsbereich unter Einbeziehung der Vorgaben der DSGVO und Ethikvorgaben, RatSWD Working Paper 264/2017, Rat für Sozial- und Wirtschaftsdaten (RatSWD). https://doi.org/10.17620/02671.12
van Leeuwen, Marco H.D., Ineke Maas and Andrew Miles, Andrew (2002): Historical international standard classification of occupations. Leuven
Wierling, Dorothee (2003): Oral History. In: Michael Maurer (Hg.): Aufriß der Historischen Wissenschaften, Bd. 7: Neue Themen und Methoden der Geschichtswissenschaft, Reclams Universal-Bibliothek, Nr. 17033, Stuttgart: Reclam, 81-151.
Zöller, Kathrin, Clemens Villinger, Pascal Siegers, Sabine Reh, Lutz Raphael, Christian von Hodenberg und Kerstin Brückweh (2022): Sozialwissenschaftliche Forschungsdaten als historische Quellen: Welche Infrastrukturbedarfe hat die zeitgeschichtliche Forschung?. RatSWD Working Paper 277/2022, Berlin: Rat für Sozial- und Wirtschaftsdaten (RatSWD). https://doi.org/10.17620/02671.66