Thumbnail Image

Analysis of textual variants with robust machine learning methods: Towards novel insights for the digital humanities

Lassner, David

The analysis of textual variants allows us to explore how a given literary text came into being. This involves the analysis of the author’s writing process and aesthetic inspirations but also analysing others who influenced the history of the text, for example as a translator or as a publisher. This further involves the inquiry into the historical and social circumstances under which the text was carried forward. These investigations are particularly relevant to the humanities not only because important contributions can be attributed to the respective person, but also because together they are the basis on which literary scholars then constitute the text: By comparison they can decide which textual variant is most adequate in the context of their specific research. The path digital editors take to approach this question is that they gather source material to identify traces of alterations and compile a document with a complex annotation structure that contains all available textual variants. Machine learning and computational humanities methods have the potential to contribute to this type of research in several ways, because they can (1) improve data availability with automated enrichment, (2) examine a broader collection through their ability to process textual sources at high speed, and (3) expand the existing catalog of methodology in literary studies. The major challenge is that methods in natural language processing as a sub-field of machine learning assume a simplified, linear textual basis, and thus are not able to compare different textual variants with each other. In Part 1, it will be addressed how linear textual variants can be extracted from complex document structures so that existing text processing methods can be applied. In Part 2, it will be investigated how the methodologies of the different disciplines of machine learning and literary studies can be connected, to ensure that the proposed method and the obtained findings present a useful contribution in the respective disciplines. Here, we focus on the notion of text representation and introduce the new Word2Vec with Structure Prediction method for generating text representations in the context of structured corpora and show how it benefits the digital humanities. Finally in Part 3, novel, robust natural language processing methods that are capable of comparing different textual variants are presented and applied in two different research contexts: In the analysis of a historical collection of letters from individuals who shaped intellectual Berlin around 1800 and in the study of the famous Schlegel-Tieck Shakespeare translation, with its translatorship origin still partly unexplained today. Overall, this work aims to illustrate how transdisciplinary research between literary studies and machine learning leads to new insights and thus benefits both fields.
Die Analyse von Textvarianten ermöglicht es zu erkunden, wie ein vorliegender, literarischer Text entstanden ist. Dies umfasst die Analyse der künstlerischen Inspirationen, aber auch die konkreten Personen, die in ihrer Rolle, sei es bspw. Autor, Übersetzer oder Verleger, Einfluss auf die Textgeschichte hatten, bis hin zur Untersuchung der historisch-sozialen Umstände, unter denen der Text weitergegeben wurde. Diese Untersuchungen sind so relevant für die Geisteswissenschaften, weil sie gemeinsam Grundlage sind, auf der Literaturwissenschaftler dann einen adäquaten Text konstituieren. Der Ansatz der digitalen Editionswissenschaften ist es, dafür Quelldokumente sammeln, die Spuren von Textänderungen einer bestimmten Person bzw. eines bestimmten Kontexts enthalten und diese in einer komplexen Dokumentstruktur festzuhalten. Methoden des maschinellen Lernens und der computergestützten Geisteswissenschaft haben das Potenzial auf verschiedene Weise einen Beitrag bei dieser Art der Forschung zu leisten, da sie mit automatisierter Anreicherung die Datenverfügbarkeit verbessern können, sie durch ihre hohe Geschwindigkeit im Verarbeiten von Textquellen eine breitere Quellensammlung untersuchen können und weil sie den existierenden Methodenkatalog der Literaturwissenschaften erweitern. Die große Herausforderung besteht darin, dass existierende Textverarbeitungsmethoden (NLP Methoden) üblicherweise von einer vereinfachten, linearen Textgrundlage ausgehen, also nicht in der Lage sind, verschiedene Textvarianten (textual variants) miteinander zu vergleichen. In dieser Arbeit wird deshalb in einem ersten Schritt erarbeitet, wie aus diesen komplexen Dokumentstrukturen lineare Textvarianten extrahiert werden können, sodass bestehende Textverarbeitungsmethoden angewandt werden können (Teil 1). In einem zweiten Schritt wird erarbeitet, welche Scharnierstellen es gibt, die die Methodiken der stark unterschiedlichen Disziplinen des maschinellen Lernens und der Literaturwissenschaft verbinden, sodass sichergestellt ist, dass die entwickelten Methoden und die damit erzielten Erkenntnisse in der jeweiligen Disziplin auch verwendbar sind. Dabei wird der Fokus auf den Begriff der Textrepräsentation gelegt und die neue Methode Word2Vec with Structure zur Erzeugung von Textrepräsentation im Kontext von strukturierten Korpora vorgestellt und gezeigt, wie diese in den digitalen Geisteswissenschaften verwendet werden kann (Teil 2). Zuletzt werden neue, robuste NLP Methoden vorgestellt, die in der Lage sind, Textvarianten zu vergleichen und diese werden in zwei verschiedenen Forschungskontexten angewandt: Bei der Analyse einer historischen Briefsammlung von Personen, die das intellektuelle Berlin um 1800 geprägt haben und bei der Untersuchung der berühmten Schlegel-Tieckschen Shakespeareübersetzung, mit ihrer bis heute teils ungeklärten Übersetzungsurheberschaft (Teil 3). Insgesamt soll diese Arbeit verdeutlichen, wie eine transdisziplinäre Forschung zwischen Literaturwissenschaft und maschinellem Lernen produktiv neue Ergebnisse in beiden Feldern liefern kann.