Projektabschluss ‘Mining and Modeling Text’ (2019-2023)

31.01.2024 | Allgemein, Pressemitteilungen, Projektnews

Das erfolgreiche Projektende des von der Forschungsinitiative Rheinland-Pfalz von 2019 bis 2023 geförderten Projekts am Trier Center for Digital Humanities unter Leitung von Prof. Dr. Christof Schöch und Prof. Dr. Claudine Moulin wurde mit einem Umtrunk am 09. November im Gästeraum der Mensa Trier gefeiert. Das Digital Humanities Projekt hat einen innovativen Linked Open Data Ansatz in Form eines Wissensgraphen für die Geisteswissenschaften entwickelt und am Beispiel des Französischen Romans der Aufklärung angewandt. Das Projekt hat über zahlreiche Vorträge, Workshops und Publikationen national und international Sichtbarkeit für dieses Paradigma der Verknüpfung von Daten hergestellt.

Vernetztes Wissen zur französischen Literaturgeschichte

Das wichtigste Ergebnis des gut vierjährigen Vorhabens ist ohne Frage die MiMoTextBase, also unser frei verfügbares Wissensnetz zur Geschichte des französischen Romans der Aufklärung. Aus ganz unterschiedlichen Quellen – von bibliographischen Ressourcen über Primärtexte aus dem 18. Jahrhundert bis zu aktueller Forschungsliteratur – hat das Projektteam hierfür mit computergestützten Methoden Informationen extrahiert. Diese reichen von bibliographischen Daten wie Publikationsorten oder Buchformaten über Themen, Handlungsorte und Protagonist:innen bis zu Sentiment-Verläufen und stilistischen Ähnlichkeitsbeziehungen zwischen Texten. Durch das „Linked Open Data“-Paradigma können diese heterogenen Informationen zu einem gemeinsamen Wissensbestand verknüpft werden. Dessen Inhalte sind formal modelliert und vielfältig untereinander verbunden sowie mit externen Wissensressourcen, allen voran Wikidata, verknüpft. Die zahlreichen Abfragemöglichkeiten, die dies erlaubt, eröffnen völlig neue Perspektiven auf bekanntes ebenso wie weniger bekanntes literaturhistorisches Wissen.
Über die im engeren Sinne fachwissenschaftlichen Erkenntnisse hinaus konnten die Beteiligten von Mining und Modeling Text über die Jahre nicht nur herausragende Expertise in wichtigen Feldern wie Informationsextraktion, Datenmodellierung, Datenpublikation und SPARQL erwerben, sondern auch das methodische Paradigma der Linked Open Data bzw. des Semantic Web für die Literaturwissenschaft erschließen und intensiv erproben sowie das Trier Center for Digital Humanities als einen national und international gut sichtbaren Standort für diese Spielart der Digitalen Geisteswissenschaften etablieren. Damit ist auch eine solide Grundlage für weitere, vielfältige Forschung zum Thema Linked Open Data in den Geisteswissenschaften gelegt.

Kooperationen

Das interdisziplinäre Projekt vereint Kompetenzen und Beteiligte aus mehreren Fachbereichen: Informatik, Literaturwissenschaft, Digital Humanities, Computerlinguistik und Rechtswissenschaften.

Im Projektverlauf besuchten internationale Fellows für mehrmonatige Aufenthalte das TCDH. Neben dem interdisziplinären und internationalen Austausch gab es zudem eine rege Kooperation mit weiteren Partnerinnen und Partnern: Mit dem Patterns-Verbund (Trier Center for Language and Communication) wurden gemeinsame Veranstaltungen durchgeführt, beispielsweise der Workshop im Juni 2020 “Computational Modeling of Language Phenomena“, zu dem Trierer Wissenschaftlerinnen und Wissenschaftler (Prof. Ralf Münnich, Prof. Achim Rettinger, Prof. Dr. Sabine Arndt-Lappe), aber auch Prof. Dr. Melanie Bell (Cambridge) beitrugen.

Gemeinsam mit dem Kooperationspartner Fachinformationsdienst Romanistik hat das MiMoText-Team einen Workshop zum Forschungsdatenmanagement gehalten. Das Graduiertenzentrum Trier (GUT) war Kooperationspartner in einer Reihe, die junge Forschende zur Nutzung digitaler Werkzeuge wie Zotero zur Verwaltung wissenschaftlicher Referenzen befähigen sollte.

In Kooperation mit dem am Lehrstuhl für künstliche Intelligenz tätigen Dr. Christian Reul (Universität Würzburg) konnte das Projektteam ein Modell zur automatischen Texterkennung historischer Drucke aus dem 18. Jahrhundert trainieren, das es ermöglicht, beispielsweise in Scans der französischen Nationalbibliothek mit Hilfe von maschinellem Lernen den Volltext zu erkennen und verfügbar zu machen.

Das Projektteam hat auch die wissenschaftliche Kooperation in der Großregion Trier-Luxemburg gezielt gesucht, u.a. in Kooperation mit dem Centre for Contemporary and Digital History, University of Luxemburg (Vortrag „The Use and Abuse of Word Embeddings in Digital Humanities“, Digital History and Hermeneutics Lecture Series, University of Luxemburg, 4.12.2019, oder auch beim Workshop Scholarly Writing and Publishing Today, 30.01.2020). Das MiMoText-Team hat sich unterstützend bei der binationalen Organisation der Jahreskonferenz 2023 des DHd-Verbands (Digital Humanities im deutschsprachigen Raum) an der Universität Trier und der Universität Luxemburg mit über 500 Teilnehmenden eingebracht.

Vorträge

Im Verlauf des Projekts haben die Projektmitglieder über 35 Vorträge rund um das Vorhaben gehalten und waren dabei national und international präsent. Unter anderem hat Christof Schöch den Vortrag “How Could Digital Literary Historiography Work?” am Department of Germanic Studies an der University of Texas in Austin halten. Auch auf der 11. internationalen Conference of Digital Archives and Digital Humanities in Taipei, Taiwan war MiMoText mit einem Vortrag zu “Smart Modeling for Digital Literary History” vertreten. Da aufgrund der Corona-Pandemie viele Konferenzen online stattfanden, konnte das Team ohne CO2-Verbrauch oder Reisekosten viele internationale (Austin/USA, Taipei/Taiwan, Tokyo/Japan, Zürich/Schweiz) Vorträge halten: Ob in Stockholm (“Current Challenges in Computational Literary Studies”, Digital Humanities Now, 27.01.2021), Amsterdam (The French Enlightenment Novel as a Graph? Potentials and Challenges in the Construction of a Knowledge Network; Graphs and Networks in the Humanities 2022, 03.02.2022), Vilnius (“Mining and Modeling Literary History”, Lithuanian Academy of Music and Theatre, Vilnius, Litauen, 30.09.2020) oder Zürich (“Informationsextraktion und Linked Open Data für die Literaturgeschichtsschreibung”, Zentralbibliothek Zürich, 23.09.2020) oder Paris (“Pour une histoire littéraire ouverte et en réseau: le projet Mining and Modeling Text”, Sorbonne Centre for Artificial Intelligence, 4.4. 2023).

SPARQL-Workshops & Tutorial

Im Verlauf des Projekts erlernten die Forschenden Kenntnisse in der Abfragesprache SPARQL, die sie ihrerseits in zahlreichen Workshops an die Digital Humanities Community weitergaben, sei es auf der nationalen DHd-Konferenz (Luxemburg/Trier) oder der internationalen Digital Humanities Konferenz (Graz), aber auch aufgrund weiterer Anfragen (Universität Rostock).

Zudem ist ein reichhaltiges Online-Tutorial, das an die Abfragesprache SPARQL mit vielen anschaulichen Beispielen heranführt, entstanden (Hinzmann et al. 2022). Es steht auch nach Projektabschluss langfristig gesichert auf GitHub zur Verfügung und wird bereits von internationalen Forschenden wie aktuell beispielsweise von Federico Pianzola (Universität Groningen) in der Lehre genutzt .

Publikationen

Die Mitglieder des Teams haben Teilergebnisse aus dem Vorhaben sowie zusammenfassende Beiträge publiziert. Hervorzuheben sind hier sicherlich unsere Referenzpublikation mit dem Titel „Smart Modelling for Literary History“, die im International Journal of Humanities and Arts Computing erschienen ist, und der Beitrag „The French Enlightenment Novel as a Graph? Potentials and Challenges in the Construction of a Knowledge Network“, die im Konferenzband zu Graphs and Networks in the Humanities 2022 erschienen ist.

In kontinuierlicher Zusammenarbeit mit dem Institut für Recht und Digitalisierung Trier wurden zudem zahlreiche rechtswissenschaftliche Handreichungen im Bereich Text- und Datamining erarbeitet und veröffentlicht.

Rechtswissenschaftliche Handreichungen zu Urheberrecht und Digital Humanities

Ebenfalls aus einer Zusammenarbeit aus Digital Humanities und Rechtswissenschaften hervorgegangen ist die Idee, den Zugang zu textuellen Korpora des 20. und 21. Jahrhunderts mithilfe von sogenannten “abgeleiteten Textformaten” zu ermöglichen, die die Texte in einer urheberrechtlich unbedenklichen Form darbieten (Schöch et al. 2020a, Schöch et al. 2020b, Raue/Schöch 2020, Kugler et al. 2022). Ein von Benjamin Raue und Christof Schöch herausgegebener Sammelband, der die Ergebnisse der Kooperation des TCDH mit dem IRDT dokumentiert, ist in Vorbereitung.

In einem erweiterten Verständnis wissenschaftlicher Publikationsformate sind außerdem weitere Publikationen des Projektteams zu nennen, allen voran die Publikation des Volltextkorpus Collection de romans français du dix-huitième siècle (1751-1800) / Eighteenth-Century French Novels (1751-1800), das von Julia Röttgermann herausgegeben wurde. Hierzu gehören aber auch die zahlreichen weiteren verschiedene Teilaufgaben des Vorhabens dokumentierende Forschungsdaten verschiedenster Art.

Wissenschaftskommunikation

Das Format Video wurde einerseits anlässlich der vDhd-Konferenz, die sich dem Motto ‘Experimente’ verschrieben hatte, genutzt, um in einem interaktiven Raum mit Besuchern der virtuellen Konferenz in Austausch zu treten, andererseits hat das Projektteam das Format Video genutzt, um einen Eindruck des SPARQL-Tutorials zu vermitteln.

Videos MiMoText — Videoformate: Tutorial-Einblick und Videos in pandemiebedingt virtueller Konferenz

Neben klassischen Artikeln und Beiträgen, sind mehrere Blogposts (Röttgermann/Schöch 2020, Röttgermann 2023) entstanden, die die Projektarbeit dokumentieren und für weitere Dissemination (Newsletter-Versand der Voltaire-Foundation, University of Oxford) sorgen konnten.

In Bezug auf die Kommunikation der Projekterträge kann das Projekt auf vielfältige Formate zurückblicken: Neben der Dissemination an die interessierte universitäre Öffentlichkeit (Artikel “Im Netz der Daten: Informationen extrahieren und modellieren“, in: konzenTRiert, 12/2020) wurden auch Podcast-Formate genutzt (In sechs Stationen rund um MiMoText: Einblicke in das Projekt „Mining and Modeling Text“,” in: RaDiHum-Podcast, 14.3.2021, Wissenschaftspodcasts, Spotify).

Prominent platzieren ließ sich die Projektarbeit in einem Radio-Interview mit Michael Köhler für das Magazin Büchermarkt im Deutschlandfunk (“Literatur mit künstlicher Intelligenz lesen”, Interview mit Christof Schöch, von Michael Köhler für das Magazin Büchermarkt im Deutschlandfunk, 27.4.2021).

Ausblick

Das vielversprechende Thema der Linked Open Data in den Geisteswissenschaften wird mit Projektende erfreulicherweise nicht enden. Denn aus dem Kontext des Projekts heraus konnten wir mit zahlreichen Partnerinnen und Partnern der Universität Trier eine Projektidee entwickeln, die im Rahmen der Forschungsinitiative Rheinland-Pfalz positiv bewertet wurde und für mindestens drei Jahre gefördert wird. So startet in Kürze das breit aufgestellte neue Projekt “LODing - Linked Open Data in den Geisteswissenschaften”, das vom Trier Center for Digital Humanities koordiniert wird.