Online-Vortrag von Svenja Wagner: „In Medias Res - Semantische Informationsextraktion in philosophischen Texten anhand von Kants Gesamtwerk mithilfe von Transformer Modellen“
Die Suche nach relevanten und/oder bestimmten Textstellen innerhalb immer größer werdender Datenmengen erfordert immer passgenauere Suchverfahren, um möglichst relevante Ergebnisse zu erzielen. Soll dabei nicht nur ein Ähnlichkeitsabgleich der Zeichen und Buchstaben zwischen Sucheingabe und möglichen Ausgaben durchgeführt werden, sondern eine inhaltliche Analyse, muss auf neue Verfahren zurückgegriffen werden. Interessant für einen solchen ‚Bedeutungsabgleich‘ sind moderne Sprachmodelle; Gerade Transformermodelle versprechen gute Ergebnisse mit vergleichsweise moderatem (Rechen)aufwand. Nachteilig bei diesen Modellen sind die mitunter geringe Güte bei nicht standardsprachlichen Texten (z.B. dialektalen, historischen oder fachspezifischen) wie auch die Herausforderung solche Modelle mit kleinen Datenmengen zu trainieren. Da der Kant-Korpus nicht besonders groß ist und es sich um historische Texte handelt, wurde ein Verfahren entwickelt, dass es ermöglicht mehrere Modelle auch mit einem kleinen Datensatz (ohne konkrete Frage-Antwort-Kombinationen) möglichst zielführend zu trainieren, eine Auswertung dieser durchzuführen und eine einfache sowie verständliche Nutzungsoption bereitzustellen. Dieses Verfahren soll vorgestellt und mögliche Fallstricke beleuchtet werden. Dabei sollen einerseits Aspekte der zugrundeliegenden Datenverarbeitung, andererseits der theoretische Hintergrund und zuletzt die Bereitstellung der Ergebnisse Beachtung finden. Das Projekt basiert auf der Masterarbeit ‚In Medias Res - Semantische Suche in philosophischen Texten anhand von Kants Gesamtwerk mithilfe von Transformer Modellen‘. Weitere Informationen wie auch die Möglichkeit, die Suche anzuwenden finden sich auf der zugehörigen Webseite.
Svenja Wagner ist Wissenschaftliche Hilfskraft im Forschungsschwerpunkt digitale_kultur an der FernUniversität in Hagen und ist außerdem am Trier Center for Digital Humanities im Projekt „Fürstinnenbibliotheken und Wissenspraktiken im deutschsprachigen Raum des 18. Jahrhunderts“ angestellt, wo sie vor allem im Bereich des Forschungsdatenmanagements tätig ist.