Investigating Measures of Distinctiveness for the Genre-Based Classification of Entire Novels

SIG DLS Workshop im Rahmen der DH2023

Logo DH2023

Datum:

10.07.2023

Ort:

DH2023, Graz, Workshop Venue 9

13:30 – 17:30

Kategorie(n):

Veranstaltung

Kontakt:

Keli Du
Sieben Jahre sind seit der Gründung der ADHO Special Interest Group "Digital Literary Stylistics" (SIG-DLS) vergangen. In der Zwischenzeit hat sich das Forschungsfeld mit dem Aufkommen neuer Methoden (die sich auf das ständig wachsende Gebiet der Computerlinguistik stützen) und der Bestätigung neuer Theorien und Definitionen (wie das Modellierungsparadigma der "Computational Literary Studies") verändert. Gleichzeitig sind einige Aspekte und Bezugspunkte gleich geblieben, wie etwa der bestätigte Erfolg frequenzbasierter Ansätze und die zentrale Rolle statistischer Methoden. Mit diesem Workshop möchten wir einen neuen Überblick über das Feld der Digitalen Literaturwissenschaft geben, im idealen Dialog mit dem bahnbrechenden Workshop auf der DH2016, der die Gründung der SIG-DLS ermöglichte. Das Team des Projekts "Zeta und Konsorten" wird auf dem Workshop ebenfalls seine Arbeit vorstellen.

Die Studie von Du et al. (2022) zielte darauf ab, verschiedene Distinktivitätsmaße (oder Keyness, siehe z.B. Lijffijt et al. 2014, Paquot & Bestgen 2009), wie Zeta und Welch's t-test, für eine Klassifizierungsaufgabe im Rahmen der Computational Literary Studies zu bewerten. In dieser Studie wurden distinktive Wörter, die durch verschiedene Distinktivitätsmaße identifiziert wurden, als Feature für die Textklassifikation verwendet, wobei Romansegmente nach Subgenre klassifiziert wurden. Die Klassifizierung wurde auf der Ebene der Romansegmente vorgenommen, da davon ausgegangen wurde, dass menschliche Leser in der Lage sind, das Genre eines Romans zu bestimmen, indem sie nur einen oder mehrere Absätze eines Romans lesen, ohne den gesamten Roman zu lesen.

Die Ergebnisse der Studie zeigten, dass, wenn nur eine kleine Anzahl von Merkmalen verwendet wurde, dispersion-basierte Maße (wie Zeta) effektiver bei der Identifizierung von distinktiven Wörtern waren und bessere Klassifizierungsergebnisse lieferten als frequenzbasierte Maße (wie Log-Likelihood-Ratio-Test). Die Studie ließ jedoch die Frage offen, wie effektiv die Distinktivitätsmaße bei der Klassifizierung ganzer Romane und nicht nur von Romanabschnitten sind.

Um diese Frage zu klären, wurde eine Strategie angewandt, die sich eng an die frühere Arbeit anlehnt, aber in dem entscheidenden Parameter Romansegmente vs. ganze Romane davon abweicht, um die Vergleichbarkeit der Ergebnisse zu gewährleisten. Durch die Bewertung der Effektivität verschiedener Distinktivitätsmaße für die Klassifizierung ganzer Romane soll unsere Studie weitere Einblicke in die Verwendung stilometrischer Methoden für die Genreanalyse in den Computational Literary Studies (z.B. Calvo Tello 2021, Henny-Krahmer 2023) liefern.


Hashtags: #DH2023