Mining and Modeling Text: Linked Open Data für die Literaturgeschichtsschreibung
Gastvortrag von Maria Hinzmann und Christof Schöch in der Vorlesungsreihe „Digital Humanities – Grundlagen, Methoden und Reflexion in interdisziplinärer Perspektive“
Datum:
28.01.2021Ort:
Universität Hamburg / Online
Kategorie(n):
VeranstaltungKontakt:
Dr. Maria HinzmannWeitere Infos:
VortragsfolienDer Vortrag stellt das Forschungsvorhaben Mining and Modeling Text (kurz: MiMoText) vor, dessen Ziel es ist, den Bereich der quantitativen Methoden zur Extraktion, Modellierung und Analyse geisteswissenschaftlich relevanter Informationen aus umfangreichen Textsammlungen weiterzuentwickeln und aus interdisziplinärer (geistes-, informatik- und rechtswissenschaftlicher) Perspektive zu erforschen. Die primäre Anwendungsdomäne ist zunächst die französische Literaturgeschichte der zweiten Hälfte des 18. Jahrhunderts – die Übertragung auf andere Domänen und Disziplinen (weitere Philologien, aber beispielsweise auch Philosophie, Geschichts- und Kunstwissenschaft) ist geplant und wird von Projektbeginn an mitbedacht.
Ein zentraler Ausgangspunkt betrifft die Tatsache, dass die über rund zwei Jahrhunderte akkumulierten literaturhistorischen Forschungserkenntnisse großenteils nicht unmittelbar nutzbar sind, weil sie sehr umfangreich sind, auf unterschiedliche Quellen und Orte verteilt sind und nicht in digitaler Form vorliegen. Durch die Digitalisierungsaktivitäten an Bibliotheken und Archiven werden nun zwar immer umfangreichere Bestände an Texten und Daten digital verfügbar, jedoch können diese durch menschliche Lektüre nicht mehr systematisch erfasst werden. An diesem Punkt setzt MiMoText an: Auf der Basis drei verschiedener Typen von Informationsquellen (Metadaten aus Nachweissystemen, Texteigenschaften aus Primärtexten, Sachinformationen aus Forschungsliteratur) werden Verfahren der Informationsextraktion (‚Mining‘) und eine dem ‚Linked Open Data‘-Paradigma folgende Datenmodellierung (‚Modeling‘) ineinander verschränkt.
Aus der Verbindung der drei Typen von Informationsquellen mit den vier methodischen RAs entsteht ein einzigartiges literaturhistorisches Wissensnetzwerk, das nach und nach wachsen, zunehmend dichter werden und nach außen verknüpft werden kann. Das Ziel besteht darin, eine Art „Wikidata für die Literaturgeschichte“ mit einem SPARQL-Endpunkt zur Verfügung zu stellen, das einen Mehrwert für Interessierte verschiedener Disziplinen (Literatur-, Kultur-, Geschichts-, Medien-, Informationswissenschaften) in verschiedenen Nutzungsszenarien (der Forschung wie der Lehre) bieten kann.