Kontrastive Textanalyse mit pydistinto – Ein Python-Paket zur Nutzung unterschiedlicher Distinktivitätsmaße

Vortrag im Rahmen der DHd 2022

Logo DHd 2022

Datum:

10.03.2022

Ort:

via zoom

17:30 – 20:00 Uhr

 

 

Kategorie(n):

Tagung

Vortrag von Keli Du, Julia Dudar, Cora Rok und Christof Schöch.

Vortrag von Keli Du, Julia Dudar, Cora Rok und Christof Schöch.

In den Computational Literary Studies (CLS) werden statistische Distinktivitätsmaße eingesetzt, um Features zu bestimmen, die charakteristisch für eine Textgruppe im Vergleich mit einer anderen Textgruppe sind. Allerdings erweisen sich die meisten vorhandenen Tools als ungeeignet, wenn Nutzer:innen ihre Analysen anpassen und eigene Parametereinstellungen vornehmen oder bestimmte Datenformate nutzen wollen. Um den Einsatz relevanter Maße für die kontrastive Textanalyse zu erleichtern und das Bewusstsein für die Vielfalt der Maße zu schärfen, entwickeln wir ein Python-Paket mit dem Namen pydistinto. Mithilfe von pydistinto können Nutzer:innen auch mit geringen Programmier- und Statistikkenntnissen zwei Textkorpora mit unterschiedlichen Maßen miteinander vergleichen, und in einem fortgeschrittenen Modus auch die Eigenschaften und Leistungsfähigkeit der unterschiedlichen Maße empirisch ermitteln und gegenüberstellen. Durch Tabellen und Abbildungen werden in dem geplanten Poster vor allem die folgenden Aspekte unseres Pakets vorgestellt: die Möglichkeiten der Vorverarbeitung der Textdaten, die implementierten Distinktivitätsmaße und die Visualisierung der kontrastiven Analyseergebnisse.


Schlagworte: Text Mining