Mining and Modeling Text. Linked Open Data für die Literaturgeschichtsschreibung

Gastvortrag von Christof Schöch & Maria Hinzmann im Rahmen des „Digital History“-Forschungskolloquiums

MiMoText Logo

Datum:

27.01.2021

Ort:

Online via Zoom.

Kategorie(n):

Veranstaltung

Der Vortrag stellt das Forschungsvorhaben Mining and Modeling Text (kurz: MiMoText) vor, dessen Ziel es ist, den Bereich der quantitativen Methoden zur Extraktion, Modellierung und Analyse geisteswissenschaftlich relevanter Informationen aus umfangreichen Textsammlungen weiterzuentwickeln und aus interdisziplinärer (geistes-, informatik- und rechtswissenschaftlicher) Perspektive zu erforschen. Die primäre Anwendungsdomäne ist zunächst die französische Literaturgeschichte der zweiten Hälfte des 18.

Der Vortrag stellt das Forschungsvorhaben Mining and Modeling Text (kurz: MiMoText) vor, dessen Ziel es ist, den Bereich der quantitativen Methoden zur Extraktion, Modellierung und Analyse geisteswissenschaftlich relevanter Informationen aus umfangreichen Textsammlungen weiterzuentwickeln und aus interdisziplinärer (geistes-, informatik- und rechtswissenschaftlicher) Perspektive zu erforschen. Die primäre Anwendungsdomäne ist zunächst die französische Literaturgeschichte der zweiten Hälfte des 18. Jahrhunderts – die Übertragung auf andere Domänen und Disziplinen (weitere Philologien, aber beispielsweise auch Philosophie, Geschichts- und Kunstwissenschaft) ist geplant und wird von Projektbeginn an mitbedacht.

Ein zentraler Ausgangspunkt betrifft die Tatsache, dass die über rund zwei Jahrhunderte akkumulierten literaturhistorischen Forschungserkenntnisse großenteils nicht unmittelbar nutzbar sind, weil sie sehr umfangreich sind, auf unterschiedliche Quellen und Orte verteilt sind und nicht in digitaler Form vorliegen. Durch die Digitalisierungsaktivitäten an Bibliotheken und Archiven werden nun zwar immer umfangreichere Bestände an Texten und Daten digital verfügbar, jedoch können diese durch menschliche Lektüre nicht mehr systematisch erfasst werden. An diesem Punkt setzt MiMoText an: Auf der Basis drei verschiedener Typen von Informationsquellen (Metadaten aus Nachweissystemen, Texteigenschaften aus Primärtexten, Sachinformationen aus Forschungsliteratur) werden Verfahren der Informationsextraktion (‚Mining‘) und eine dem ‚Linked Open Data‘-Paradigma folgende Datenmodellierung (‚Modeling‘) ineinander verschränkt.

Aus der Verbindung der drei Typen von Informationsquellen mit den vier methodischen RAs entsteht ein einzigartiges literaturhistorisches Wissensnetzwerk, das nach und nach wachsen, zunehmend dichter werden und nach außen verknüpft werden kann. Das Ziel besteht darin, eine Art „Wikidata für die Literaturgeschichte“ mit einem SPARQL-Endpunkt zur Verfügung zu stellen, das einen Mehrwert für Interessierte verschiedener Disziplinen (Literatur-, Kultur-, Geschichts-, Medien-, Informationswissenschaften) in verschiedenen Nutzungsszenarien (der Forschung wie der Lehre) bieten kann.


Schlagworte: Text Mining, Rechtssprache