Zeta und Konsorten.

Distinktivitätsmaße für die Digitalen Literaturwissenschaften

Zeta und Konsorten

Projektleitung: Prof. Dr. Christof Schöch  (Universität Trier - Computerlinguistik & Digital HumanitiesUniversität Trier - Trier Center for Digital Humanities (TCDH))

Projektbeteiligte: Universität Trier - Trier Center for Digital Humanities (TCDH)

Förderer: Deutsche Forschungsgemeinschaft (DFG)

Laufzeit: -

Ansprechpartner (TCDH): Prof. Dr. Christof Schöch

Referenzpublikation:

Schöch, Christof: Zeta für die kontrastive Analyse literarischer Texte. Theorie, Implementierung, Fallstudie. In: Quantitative Ansätze in den Literatur- und Geisteswissenschaften. Systematische und historische Perspektiven, hg. von Toni Bernhart, Sandra Richter, Marcel Lepper, Marcus Willand, und Andrea Albrecht, S. 77–94. Berlin: de Gruyter, 2018. Open Access: https://www.degruyter.com/view/books/9783110523300/9783110523300-004/9783110523300-004.xml

Forschungsbereich(e): Digitale Literatur- und Kulturwissenschaften

Schlagworte: quantitative Analysen

Technologie:

Projektseite: Zur Projektseite

Distinktivitätsmaße dienen dazu, diejenigen Wörter (oder andere Merkmale) einer Textgruppe zu identifizieren, die für diese Gruppe im Vergleich zu einer zweiten Textgruppe charakteristisch sind. In diesem Vorhaben geht es um die Modellierung, Implementierung, Evaluation, Nutzung und Dissemination verschiedenartiger Distinktivitätsmaße, die in den Digitalen Literaturwissenschaften eingesetzt werden können.

Der Vergleich als methodisches und epistemologisches Paradigma ist in den Geisteswissenschaften tief verankert. Ob in der qualitativen oder quantitativen Forschung – über das Vergleichen lassen sich Ähnlichkeiten und Unterschiede, Affinitäten und Kontraste herausstellen; das Vergleichen schärft das Auge des Betrachters und Analysen gewinnen an Kontur und Aussagekraft. Vor diesem Hintergrund zielt das Projekt darauf ab, unser Verständnis von quantitativen, vergleichenden Analysemethoden zweier oder mehrerer Textsammlungen im Bereich der Digitalen Literaturwissenschaften zu verbessern.

Der Fokus wird dabei auf einem zentralen Verfahren im Bereich der quantitativen, vergleichenden Analysen liegen: statistische Distinktivitätsmaße (auch ‚keyness‘-Maße genannt), die es Forschern ermöglichen, Elemente (z.B. Wortformen oder Wortarten) zu bestimmen, die charakteristisch für eine Textgruppe im Vergleich mit einer anderen Textgruppe sind. In so unterschiedlichen Bereichen wie Information Retrieval, Computerlinguistik oder den Digitalen Literaturwissenschaften ist ein breites Spektrum an statistischen Distinktivitätsmaßen entwickelt worden. Dabei können mindestens drei Typen von Maßen unterschieden werden, denen jeweils unterschiedliche Informationen zugrunde liegen. Beim ersten Typ werden die relativen Häufigkeiten von Merkmalen in jeder der beiden Textgruppen verglichen (bspw. beim log-likelihood-Test). Beim zweiten Typ werden die Verteilungen der Häufigkeiten von Merkmalen in den einzelnen Texten beider Textgruppen verglichen (bspw. beim t-Test). Beim dritten Typ wird die Dispersion der Merkmale über alle Texte hinweg in jeder Gruppe untersucht, d.h. es wird verglichen, wie gleichmäßig die Merkmale in jeder Gruppe von Texten verteilt sind (bspw. bei Zeta).

Um ein tieferes Verständnis der verschiedenen Distinktivitätsmaße zu erreichen und Verbesserungen in deren Implementierung und Anwendung vorschlagen zu können, werden wir geeignete Referenzkorpora erstellen und veröffentlichen, ein breites Spektrum an existierenden Distinktivitätsmaßen analysieren und deren statistische Eigenheiten bestimmen und vergleichen sowie sie in einem gemeinsamen konzeptionellen Modell formal darstellen. Basierend auf diesem Modell werden wir diese Maße in einem gemeinsamen Rahmen implementieren; zudem werden wir verschiedenartige Evaluationsstrategien anwenden, um die Eigenschaften und die Leistungsfähigkeit der Maße empirisch zu ermitteln und zu vergleichen. Außerdem werden wir sie in einer ausführlichen Anwendungsstudie auf verschiedene Untergattungen des zeitgenössischen französischen Romans anwenden (auf kanonisierte Romane im Vergleich mit Populärliteratur wie Kriminalromane, Liebesromane und Science-Fiction-Romane). Zudem werden wir die Hauptergebnisse der Studie in akademischen Publikationen sowie in Form eines interaktiven, pädagogischen Webportals verbreiten.

Team TCDH

Iuliia Dudar
E-Mail: dudaratuni-trier [dot] de
Tel: +49 176 7517 3079

Keli Du
E-Mail: dukatuni-trier [dot] de
Tel: +49 651 201-3377

Prof. Dr. Christof Schöch
E-Mail: schoechatuni-trier [dot] de
Tel: +49 651 201-3264

Themen