Promotionen von Mitarbeitenden am TCDH

Dr. Matthias Bremm: Teil-überwachtes und aktives Lernen mit unterschiedlichen annotierenden Personen zur Informationsextraktion in Texten (abgeschlossen 2020)

Die Dissertation ist im Bereich der Computerlinguistik und Digital Humanities angesiedelt, nutzt deren Methoden und Technologien und leistet einen Beitrag für die Auszeichnung von Texten, wie z. B. dem Briefwechsel von Heinrich Heine. Seine Dissertation beschäftigt sich dabei mit den unterschiedlichen Annotationen der einzelnen Personen. Die Arbeit geht der Problemstellung nach, diese Information in Verfahren des maschinellen Lernens einzubinden, um die Annotation zu automatisieren. Dazu wurde ein Algorithmus entwickelt und überprüft, der teil-überwachtes und aktives Lernen kombiniert. Außerdem wurde die Einbindung von Crowdsourcing untersucht, um die benötigte Anzahl von Annotationen zu erhalten.

Keli Du: Zum Verständnis des LDA Topic Modeling: eine Evaluation aus Sicht der Digital Humanities

Latent Dirichlet Allocation (LDA) Topic Modeling ist eine quantitative textanalytische Methode, die in den letzten Jahren in den Digital Humanities weit verbreitet ist. Es wird beim Einsatz des Topic Modeling oft beobachtet, dass diese Methode empfindlich auf die Einstellung der jeweiligen Parameter reagiert. Daher wird LDA Topic Modeling auch häufig stark kritisiert. Das Ziel der Evaluation ist LDA Topic Modeling vertiefend zu verstehen und herauszufinden, unter welchen Umständen man durch LDA Topic Modeling stabile Ergebnisse bekommt. Aus zwei Perspektiven, nämlich Topic-Modeling-basierte Dokumentklassifikation und Topic-Kohärenz, wurde die Evaluation auf zwei deutschen Korpora durchgeführt: Eine Sammlung von 2000 Zeitungsartikeln und eine Sammlung von 439 Heftromanen.

Tinghui Duan: Romantic Code — eine computerlinguistische Modellierung der deutschen literarischen Romantik

Der Ausgangspunkt des Promotionsprojekts von Tinghui Duan ist die Unstimmigkeit darüber, was romantisch ist bzw. welche literarischen Texte der deutschen Romantik zugeordnet werden sollen. Mithilfe von computerlinguistischen Methoden erstellt er ein statistisches Modell, das in der Lage ist, einen beliebigen Text im Bezug auf seine „Romantizität“ zu bewerten und dabei objektive Argumente zu liefern. Gleichzeitig sollen neue Erkenntnisse über die deutsche romantische Literatur gewonnen werden – das sind Textmerkmale, die beim Lesen von Menschen nicht auffallen würden, aber für die gesamte romantische Literatur statistisch signifikant sind. Eine Herausforderung bleibt dabei, solche Textmerkmale auf eine plausible Weise zu interpretieren, zumal Literatur nicht fürs Zerlegen und Abzählen von Computer, sondern für das Lesen von Menschen geschrieben wird.

Carolin Geib: Die Lutherbibel (1541) des Seidenstickers Hans Plock. Kultur-, buch- und sprachhistorische Untersuchung der Marginalien

Carolin Geib forscht seit August 2018 an der zweibändigen, bei Hans Lufft in Wittenberg gedruckten Bibelausgabe aus dem Jahr 1541, die nachträglich von dem Mainzer Seidensticker Hans Plock (1490-1570) reichlich annotiert wurde. Dieses Bibelexemplar gewährt durch Plocks handschriftliche Kommentare zu zeitgenössischen Ereignissen mit Zitaten Luthers sowie etlichen eingeklebten Bildelementen einen einmaligen Einblick in die Epoche der Reformation aus ganz persönlicher Sicht. Sie erforscht die zahlreicher Abbildungen mit den verschiedenen nachträglichen Zufügungen Hans Plocks in die Lutherbibel und erarbeitet ihr Dissertationsvorhaben im Rahmen des Projekts „Digitalisierung der Bibel des Seidenstickers Hans Plock“.

Anne Klee: Vernetzung von Wörterbüchern – Ansätze, Probleme und Perspektiven

Mit Blick auf ihren Digitalisierungsgrad bietet die deutschsprachige Dialektlexikographie ein sehr heterogenes Bild. Noch sind längst nicht alle Wörterbücher ins digitale Medium überführt worden. Und darüber hinaus stehen viele digital aufbereitete Wörterbücher isoliert nebeneinander, obwohl sie ein großes Vernetzungspotential aufweisen und der Wunsch nach dialektübergreifenden Vergleichsmöglichkeiten besteht. Dies ist zu großen Teilen auf den hohen Aufwand und die Kosten einer digitalen Datenaufbereitung zurzückzuführen. Nicht zuletzt erschwert vor allem die Charakteristik der historischen Wörterbuchdaten die Anwendung maschineller, automatisierter Verfahren. Am Beispiel der westdeutschen Dialektwörterbücher und ihrer Vernetzungsaufgabe analysiert Anne Klee die charakteristischen Herausforderungen der Aufbereitung historischer retrodigitalisierter Wörterbücher und entwirft Lösungsstrategien und -perspektiven.

Julia Röttgermann: Affekt und Aufklärung - Automatische Erhebung literaturhistorisch relevanter Informationen aus Volltexten am Beispiel von französischen Romanen des XVIII. Jahrhunderts

Die im Kontext des Forschungsprojekts „Mining and Modeling Text (MiMoText)“ verortete Dissertation befasst sich mit einem Korpus französischer Romane aus der Zeit 1750-1800, die erstmalig in TEI-konformes XML übertragen und im Rahmen der European Literary Text Collection (ELTeC) publiziert werden. Auf das Korpus werden quantitative und qualitative Methoden der Textanalyse angewendet mit dem Ziel, literaturwissenschaftlich verwertbare Informationen zu Aspekten wie Themen, Figuren, Orten oder Motiven zu extrahieren. Vertiefte Analysen und Auswertungen sind zum Themenkomplex Affekte im französischen Roman des 18. Jahrhunderts geplant. Alle extrahierten Daten werden als Linked Open Data in einem semantischen Netz modelliert, mit weiteren Informationen aus MiMoText verknüpft und sollen für strukturierte Abfragen zur Verfügung stehen.