Investigating Measures of Distinctiveness for the Genre-Based Classification of Entire Novels
SIG DLS Workshop im Rahmen der DH2023
Die Studie von Du et al. (2022) zielte darauf ab, verschiedene Distinktivitätsmaße (oder Keyness, siehe z.B. Lijffijt et al. 2014, Paquot & Bestgen 2009), wie Zeta und Welch's t-test, für eine Klassifizierungsaufgabe im Rahmen der Computational Literary Studies zu bewerten. In dieser Studie wurden distinktive Wörter, die durch verschiedene Distinktivitätsmaße identifiziert wurden, als Feature für die Textklassifikation verwendet, wobei Romansegmente nach Subgenre klassifiziert wurden. Die Klassifizierung wurde auf der Ebene der Romansegmente vorgenommen, da davon ausgegangen wurde, dass menschliche Leser in der Lage sind, das Genre eines Romans zu bestimmen, indem sie nur einen oder mehrere Absätze eines Romans lesen, ohne den gesamten Roman zu lesen.
Die Ergebnisse der Studie zeigten, dass, wenn nur eine kleine Anzahl von Merkmalen verwendet wurde, dispersion-basierte Maße (wie Zeta) effektiver bei der Identifizierung von distinktiven Wörtern waren und bessere Klassifizierungsergebnisse lieferten als frequenzbasierte Maße (wie Log-Likelihood-Ratio-Test). Die Studie ließ jedoch die Frage offen, wie effektiv die Distinktivitätsmaße bei der Klassifizierung ganzer Romane und nicht nur von Romanabschnitten sind.
Um diese Frage zu klären, wurde eine Strategie angewandt, die sich eng an die frühere Arbeit anlehnt, aber in dem entscheidenden Parameter Romansegmente vs. ganze Romane davon abweicht, um die Vergleichbarkeit der Ergebnisse zu gewährleisten. Durch die Bewertung der Effektivität verschiedener Distinktivitätsmaße für die Klassifizierung ganzer Romane soll unsere Studie weitere Einblicke in die Verwendung stilometrischer Methoden für die Genreanalyse in den Computational Literary Studies (z.B. Calvo Tello 2021, Henny-Krahmer 2023) liefern.