Zeta & Eta: An Exploration and Evaluation of two Dispersion-based Measures of Distinctiveness
Vortrag von Keli Du, Christof Schöch, Cora Rok und Iuliia Dudar bei der Tagung „Computational Humanities Research 2021“
In der Korpuslinguistik werden zahlreiche statistische Verfahren eingesetzt, um große Mengen von Textdaten unter kontrastiven Gesichtspunkten zu analysieren und charakteristische oder „unterscheidende“ Merkmale zu ermitteln. Während die am weitesten verbreiteten Keyness-Maße auf der Worthäufigkeit basieren, wird in letzter Zeit in einer zunehmenden Zahl von Forschungsarbeiten die Verwendung von Dispersionsmaßen als bessere Lösung vorgeschlagen. Diese sind jedoch nicht neu in den Computational Literary Studies (CLS). Im Jahr 2007 stellte John Burrows Zeta vor, ein statistisches Maß, das hauptsächlich auf dem Grad der Streuung eines Merkmals in einem Textkorpus basiert. In diesem Beitrag stellen wir auch Eta vor, ein neues Maß für die Unterscheidbarkeit, das auf der von Stefan Gries vorgeschlagenen Abweichung von Proportionen basiert. Durch den Vergleich von Eta mit Zeta zeigen wir, dass beide Maße in der Lage sind, relevante, interpretierbare unterscheidende Wörter in einem Zielkorpus zu identifizieren. Darüber hinaus unternehmen wir einen ersten Versuch, die Hauptunterschiede zwischen diesen beiden Maßen durch die Interpretation der Top-unterscheidenden Wörter.