Deviation of Proportions as the Basis for a Keyness Measure
Vortrag von Keli Du, Julia Dudar, Cora Rok und Christof Schöch im Rahmen der „43. Jahrestagung der Deutschen Gesellschaft für Sprachwissenschaft (DGfS): Modell und Evidenz“
Datum:
25.02.2022 bis 26.02.2022Ort:
Online
Kategorie(n):
VeranstaltungKontakt:
Keli DuWeitere Infos:
Programm und weitere InformationenIm Rahmen der Korpuslinguistik wurden zahlreiche statistische Verfahren und Instrumente zur Untersuchung und Analyse großer Mengen von Textdaten eingesetzt, insbesondere in kontrastiver Hinsicht (z. B. Rayson et al. 1997; Oakes und Farrow, 2007; Newman et al., 2008). Trotz mehrerer wichtiger Studien (z.B. Paquot & Bestgen 2009; Lijffijt et al. 2014) fehlt es immer noch an einem vertieften Verständnis ihrer Schlüsselmerkmale und der Frage, wie diese Schlüsselmerkmale die Ergebnisse beeinflussen. In unserem Projekt "Zeta und Co." wollen wir unser Verständnis von statistischen Keyness-Maßen verbessern, die für die vergleichende, quantitative Analyse von zwei oder mehr Textsammlungen verwendet werden. Anhand von literarischen Texten werden wir diese Maße in einem Python-Framework implementieren und bewerten, welche Maße für verschiedene Aufgaben und Arten von Textdaten am besten geeignet sind.
Die am häufigsten verwendeten statistischen Keyness-Maße basieren auf der Worthäufigkeit (Chi-Quadrat, Log-Likelihood usw.) und berücksichtigen nicht, wie die einzelnen Wörter in einem Korpus verteilt sind. Dies bedeutet, dass ein Wort für den gesamten Korpus wichtig erscheinen kann, obwohl es nur in einer kleinen Anzahl von Texten in diesem Korpus sehr häufig verwendet wird. Um mit dieser Herausforderung umzugehen, wurden verschiedene Dispersionsmaße vorgeschlagen (Lyne, 1985). Stefan Gries (2008) gibt einen detaillierten Überblick über solche Maße und entwickelt sein eigenes Maß Abweichung der Proportionen (DP). DP vergleicht die Differenz zwischen der beobachteten und der erwarteten relativen Häufigkeit eines Wortes in den einzelnen Dokumenten eines Korpus, um zu quantifizieren, wie dieses Wort gestreut ist. Dieses Maß scheint im Vergleich zu anderen Streuungsmaßen mehrere Vorteile zu haben. Zum Beispiel kann es mit verschiedenen Korpusteilen umgehen, es ist einfach und kann zwischen leichten Variationen in der Verteilung unterscheiden, ohne übermäßig empfindlich zu sein.
Allerdings fehlt es noch an empirischen Belegen für die Verwendung von DP. In diesem Beitrag werden wir dieses Dispersionsmaß in unser Keyness-Framework implementieren (siehe Schöch et al. 2018; für eine Verwendung von Dispersion, jedoch nicht von DP, für die Keyness-Analyse siehe Egbert & Biber 2019). Zunächst werden wir anhand einer Sammlung von 160 französischen Romanen aus den 1980er Jahren, die vier verschiedenen Subgenres angehören (sentimentale Romane, Kriminalromane, Science-Fiction-Romane und anspruchsvolle Romane), untersuchen, wie DP mit unterschiedlichen Text- und Wortzahlen sowie Anteilen bestimmter Wörter im Korpus funktioniert. Wir wollen DP besser verstehen, indem wir zum Beispiel untersuchen, ob sich DP-Werte ändern, wenn die Anzahl der Texte steigt, und ob DP-Werte mit den relativen Worthäufigkeiten korrelieren. Eine der offenen Fragen zur Dispersion ist, ob sie zum Vergleich zweier Textsammlungen verwendet werden kann, insbesondere wenn die Länge der Dokumente variiert. Daher werden wir auch untersuchen, wie nützlich die DP als Grundlage für die Schlagwortextraktion in der kontrastiven Analyse ist.