Vortrag von Keli Du (Trier) in der Vorlesungsreihe „Praxis der Digital Humanities“
Evaluation von LDA Topic Modeling in Digital Humanities – Forschungsstand, Methode, Ergebnisse
Die Vorlesungsreihe "Praxis der Digital Humanities" findet im Rahmen des Masters 'Digital Humanities' statt. Sie ist für alle Interessierten auch aus anderen Studiengängen oder von außerhalb der Universität offen und wird als Videokonferenz mit Vortrag und Diskussionsmöglichkeit gestaltet sein.
Als quantitative texanalytische Methode wurde die Latent Dirichlet Allocation (LDA), die oft auch als Topic Modeling bezeichnet wird, in den letzten Jahren in Digital Humanities häufig eingesetzt, um zahlreiche unstrukturierte Textdaten zu untersuchen. Allerdings ist das Topic Modeling selbst noch aufgrund seiner Komplexität in Bezug auf z. B. die verwendeten Algorithmen oder Parametereinstellungen noch nicht abschließend erforscht. Es wird außerdem beim Einsatz des Topic Modeling oft beobachtet, dass diese Methode empfindlich auf die Einstellung der jeweiligen Parameter reagiert. Daher wird LDA Topic Modeling auch oft stark kritisiert. Im Vortrag wird die systematische Evaluation von LDA Topic Modeling vorgestellt. Das Ziel der Evaluation ist es, den Einfluss von den entscheidenden Faktoren auf Topic Modeling aus zwei Perspektiven zu verstehen, nämlich Topic-Modeling-basierte Dokumentklassifikation und Topic-Kohärenz.
Eine Besonderheit des diesjährigen Programms ist, dass ein Teil der Vorträge nicht nur digital, sondern gewissermaßen virtuell in das Programm der Reihe eingefügt werden. Diese Vorträge finden online in anderen Veranstaltungskontexten statt. Anstatt sie in unserem Programm zu wiederholen, dürfen wir bei den anderen Vortragsreihen zu Gast sein. Wir danken den Kolleg:innen in Berlin (Digital History, Prof. Dr. Torsten Hiltmann) und Dresden (Angewandte Linguistik, Prof. Dr. Simon Meier-Vieracker) für die Kooperationsbereitschaft.