Vortrag von Keli Du (Trier) im Rahmen des Forschungskolloquiums „Digitale Perspektiven“, SoSe 2022

Zum Verständnis des LDA Topic Modeling: eine Evaluation aus Sicht der Digital Humanities

Auge sehr nah

Datum:

30.06.2022

Ort:

Donnerstags, 18-20 Uhr c.t., digital via Zoom


Link: https://uni-trier.zoom.us/j/85154523515?pwd=VG9SYWZzY2Vlc21YNkRtRU9yWldtUT09

Kategorie(n):

Veranstaltung
Vortrag im Rahmen des Forschungskolloquiums des TCDHs im Sommersemester 2022 von Keli Du, der seine Dissertation „Zum Verständnis des LDA Topic Modeling: eine Evaluation aus Sicht der Digital Humanities“ vorstellen wird, die sich auf eine systematische Evaluation von LDA Topic Modeling konzentriert.

Latent Dirichlet Allocation (LDA) Topic Modeling ist eine quantitative textanalytische Methode, die in den letzten Jahren in den Digital Humanities weit verbreitet ist. Es wird beim Einsatz des Topic Modeling oft beobachtet, dass diese Methode empfindlich auf die Einstellung der jeweiligen Parameter reagiert. Daher wird LDA Topic Modeling auch häufig stark kritisiert.

Im Vortrag wird Keli Du seine Dissertation „Zum Verständnis des LDA Topic Modeling: eine Evaluation aus Sicht der Digital Humanities“ vorstellen, die sich auf eine systematische Evaluation von LDA Topic Modeling konzentriert. Das Ziel der Evaluation ist LDA Topic Modeling vertiefend zu verstehen und herauszufinden, unter welchen Umständen man durch LDA Topic Modeling stabile Ergebnisse bekommt. Aus zwei Perspektiven, nämlich Topic-Modeling-basierte Dokumentklassifikation und Topic-Kohärenz, wurde die Evaluation auf zwei deutschen Korpora durchgeführt: Eine Sammlung von 2000 Zeitungsartikeln und eine Sammlung von 439 Heftromanen. Im Vortrag werden vor allem die Untersuchungsergebnisse der zwei Faktoren präsentiert, nämlich die Anzahl der Topics und Chunk-Length. Interessanterweise ergaben die Untersuchungen, die mit beiden Korpora für diese zwei Faktoren durchgeführt wurden, teilweise gleiche und teilweise unterschiedliche  Ergebnisse. Dieses Phänomen deutet darauf hin, dass ein gründliches Verständnis des LDA Topic Modeling wahrscheinlich viele Experimente erfordern wird.