Dr. Matthias Bremm: Teil-überwachtes und aktives Lernen mit unterschiedlichen annotierenden Personen zur Informationsextraktion in Texten (abgeschlossen 2020)
Die Dissertation ist im Bereich der Computerlinguistik und Digital Humanities angesiedelt, nutzt deren Methoden und Technologien und leistet einen Beitrag für die Auszeichnung von Texten, wie z. B. dem Briefwechsel von Heinrich Heine. Seine Dissertation beschäftigt sich dabei mit den unterschiedlichen Annotationen der einzelnen Personen. Die Arbeit geht der Problemstellung nach, diese Information in Verfahren des maschinellen Lernens einzubinden, um die Annotation zu automatisieren. Dazu wurde ein Algorithmus entwickelt und überprüft, der teil-überwachtes und aktives Lernen kombiniert. Außerdem wurde die Einbindung von Crowdsourcing untersucht, um die benötigte Anzahl von Annotationen zu erhalten.
Keli Du: Zum Verständnis des LDA Topic Modeling: eine Evaluation aus Sicht der Digital Humanities
Latent Dirichlet Allocation (LDA) Topic Modeling ist eine quantitative textanalytische Methode, die in den letzten Jahren in den Digital Humanities weit verbreitet ist. Es wird beim Einsatz des Topic Modeling oft beobachtet, dass diese Methode empfindlich auf die Einstellung der jeweiligen Parameter reagiert. Daher wird LDA Topic Modeling auch häufig stark kritisiert. Das Ziel der Evaluation ist LDA Topic Modeling vertiefend zu verstehen und herauszufinden, unter welchen Umständen man durch LDA Topic Modeling stabile Ergebnisse bekommt. Aus zwei Perspektiven, nämlich Topic-Modeling-basierte Dokumentklassifikation und Topic-Kohärenz, wurde die Evaluation auf zwei deutschen Korpora durchgeführt: Eine Sammlung von 2000 Zeitungsartikeln und eine Sammlung von 439 Heftromanen.
Tinghui Duan: Romantic Code — eine computerlinguistische Modellierung der deutschen literarischen Romantik
Der Ausgangspunkt des Promotionsprojekts von Tinghui Duan ist die Unstimmigkeit darüber, was romantisch ist bzw. welche literarischen Texte der deutschen Romantik zugeordnet werden sollen. Mithilfe von computerlinguistischen Methoden erstellt er ein statistisches Modell, das in der Lage ist, einen beliebigen Text im Bezug auf seine „Romantizität“ zu bewerten und dabei objektive Argumente zu liefern. Gleichzeitig sollen neue Erkenntnisse über die deutsche romantische Literatur gewonnen werden – das sind Textmerkmale, die beim Lesen von Menschen nicht auffallen würden, aber für die gesamte romantische Literatur statistisch signifikant sind. Eine Herausforderung bleibt dabei, solche Textmerkmale auf eine plausible Weise zu interpretieren, zumal Literatur nicht fürs Zerlegen und Abzählen von Computer, sondern für das Lesen von Menschen geschrieben wird.
Carolin Geib: Die Lutherbibel (1541) des Seidenstickers Hans Plock. Kultur-, buch- und sprachhistorische Untersuchung der Marginalien
Carolin Geib forscht seit August 2018 an der zweibändigen, bei Hans Lufft in Wittenberg gedruckten Bibelausgabe aus dem Jahr 1541, die nachträglich von dem Mainzer Seidensticker Hans Plock (1490-1570) reichlich annotiert wurde. Dieses Bibelexemplar gewährt durch Plocks handschriftliche Kommentare zu zeitgenössischen Ereignissen mit Zitaten Luthers sowie etlichen eingeklebten Bildelementen einen einmaligen Einblick in die Epoche der Reformation aus ganz persönlicher Sicht. Sie erforscht die zahlreicher Abbildungen mit den verschiedenen nachträglichen Zufügungen Hans Plocks in die Lutherbibel und erarbeitet ihr Dissertationsvorhaben im Rahmen des Projekts „Digitalisierung der Bibel des Seidenstickers Hans Plock“.
Anne Klee: Automatisierte Methoden zur konzeptbasierten Vernetzung historischer Wörterbücher als Linked Open Data: Möglichkeiten und Herausforderungen
Viele retrodigitalisierte historische Wörterbücher sind isoliert voneinander und unverbunden im Web publiziert, obwohl sie ein großes Vernetzungspotential aufweisen und der Wunsch nach ressourcenübergreifenden Vergleichs- und Zugangsmöglichkeiten besteht.
Als geeignete Plattform für die Verlinkung lexikalischer Ressourcen gilt das Linked Open Data Paradigma, das wie in vielen Arbeitsfeldern der Digital Humanities auch in der digitalen Lexikographie zunehmend an Bedeutung gewinnt. Die Abbildung von Semantik erfolgt hier nach dem Prinzip semantics by reference über die Repräsentation und Verknüpfung der Lemmata mit einem ontologischen Konzept. Durch die Anbindung an ein gemeinsam genutztes Konzeptinventar können Lemmata unterschiedlicher Ressourcen auf diese Weise semantisch vernetzt werden. Es eröffnen sich dadurch neue Zugriffs- und Suchmöglichkeiten sowie eine onomasiologische Perspektive auf die Daten.
Ziel des Promotionsvorhabens ist es, auszuloten, wie und zu welchem Grade diese konzeptbasierte Vernetzung als Linked Open Data, insbesondere bei historischen Wörterbüchern, mit Hilfe automatisierter Methoden gelingen kann. Dies erfolgt exemplarisch an Daten westdeutscher Dialektwörterbücher sowie am Themenfeld ‘Trinken’ und beinhaltet die Wahl eines geeigneten Konzeptinventars. Mit Hilfe eines Goldstandards werden die erarbeiteten Methoden quantitativ evaluiert.
Julia Röttgermann: Affekt und Aufklärung - Automatische Erhebung literaturhistorisch relevanter Informationen aus Volltexten am Beispiel von französischen Romanen des XVIII. Jahrhunderts
Die im Kontext des Forschungsprojekts „Mining and Modeling Text (MiMoText)“ verortete Dissertation befasst sich mit einem Korpus französischer Romane aus der Zeit 1750-1800, die erstmalig in TEI-konformes XML übertragen und im Rahmen der European Literary Text Collection (ELTeC) publiziert werden. Auf das Korpus werden quantitative und qualitative Methoden der Textanalyse angewendet mit dem Ziel, literaturwissenschaftlich verwertbare Informationen zu Aspekten wie Themen, Figuren, Orten oder Motiven zu extrahieren. Vertiefte Analysen und Auswertungen sind zum Themenkomplex Affekte im französischen Roman des 18. Jahrhunderts geplant. Alle extrahierten Daten werden als Linked Open Data in einem semantischen Netz modelliert, mit weiteren Informationen aus MiMoText verknüpft und sollen für strukturierte Abfragen zur Verfügung stehen.