Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-6626
Main Title: Knowledge-intensive, high-performance relation extraction
Translated Title: Wissensintensive, hochperformante Relationsextraktion
Author(s): Krause, Sebastian
Advisor(s): Markl, Volker
Uszkoreit, Hans
Referee(s): Uszkoreit, Hans
Markl, Volker
Nakajima, Shinichi
Granting Institution: Technische Universität Berlin
Type: Doctoral Thesis
Language Code: en
Abstract: Research on information extraction (IE) from texts has attracted much attention for at least the past two decades. This is not surprising given its significance for applications such as personal digital assistants. Information extraction and its subtask relation extraction play a central role in data processing pipelines that make hidden knowledge such as the content of news articles available to downstream users. This thesis presents four main contributions to important questions of the corresponding research field. The first two contributions deal with various aspects of the automatic discovery of linguistic patterns, which we use for the detection of relations. We initially look at scenarios with predefined relations of interest. Here, state-of-the-art methods employ simplistic assumptions at training time, which has a drastic negative effect on both precision and coverage. We propose methods for the production and filtering of patterns that mitigate this shortcoming by leveraging existing knowledge about the target domains. Next, we address scenarios without a-priori relation definitions. Here, produced linguistic patterns need to be disambiguated to resolve their meaning, which is particularly hard for patterns in the long tail, which tend to get misinterpreted. Our proposed solution for this issue is the implementation of a global model that can generalize over many pattern occurrences and thus manages to handle rare patterns as well. The third contribution of this thesis focuses on the versatility of linguistic patterns beyond their designated use for extraction purposes. The patterns convey interesting information about the actual usage of language expressions, which is exactly what is missing in the current landscape of IE-relevant resources. More specifically, the relational information from world-knowledge graphs is not at all grounded in the language information present in lexical-semantic resources. We aim to remedy this de cit by proposing a construction methodology for a new kind of resource that is created by transforming many linguistic patterns into a single graph of language expressions. Finally, in the fourth contribution, we consider a fundamental shortcoming in the construction of systems for relation extraction, be they based on linguistic patterns or a different methodology. This flaw is the invalid premise that relational information is mostly contained within the boundaries of individual sentences. We initially address this problem with an analysis of its severity and follow-up by designing an approach that can easily be used to post-process the output of existing extraction systems and that allows them to produce cross-sentence relation mentions, and thereby resolves the design flaw.
Die Forschung zur Informationsgewinnung aus Texten erregt seit mindestens zwei Jahrzehnten viel Aufmerksamkeit. Dies ist nicht überraschend angesichts des praktischen Nutzens, den sie für Anwendungen wie digitale Assistenzsysteme mit sich bringen. Informationsextraktion (IE) und das Teilgebiet Relationsextraktion spielen eine zentrale Rolle in Datenverarbeitungspipelines, welche strukturiertes Wissen aus unstrukturierten Quellen wie Nachrichtenartikeln gewinnen. Die vorliegende Arbeit präsentiert vier Hauptbeiträge zu wichtigen Fragen dieses Forschungsfeldes. Die ersten zwei Beiträge beschäftigen sich mit der automatischen Entdeckung sprachlicher Muster, welche für die Erkennung von Relationen verwendet werden. Wir betrachten zunächst Szenarien mit vorgegebenen Zieldomänen. Der Lernprozess aktueller Systeme in diesem Gebiet basiert auf stark vereinfachenden Abstraktionen, was Präzision und Abdeckung negativ beeinflusst. In dieser Arbeit beschreiben wir Methoden für die Generierung und Filterung von sprachlichen Mustern, die diesen Mangel beseitigen, indem sie vorhandenes Wissen über die Zieldomänen ausnutzen. Als nächstes behandeln wir Szenarien mit flexiblen Zieldomänen. Hier müssen gefundene sprachliche Muster gegeneinander disambiguiert werden, was mit heutigen Methoden besonders für Muster im Long-Tail der Häufigkeitsverteilung zu schlechten Resultaten führt. Zur Lösung dieses Problems schlagen wir die Verwendung eines globalen Modells vor, das über viele Mustererwähnungen verallgemeinert und dem es somit gelingt, seltene Muster korrekt zu interpretieren. Der dritte Beitrag dieser Arbeit konzentriert sich auf Verwendungszwecke der sprachlichen Muster, die über deren originäre Verwendung hinausgehen. Beispielsweise können die Muster als Quelle für Statistiken über den tatsächlichen Sprachgebrauch von Aus- drücken dienen. Ferner existiert derzeit unter den verfügbaren IE-relevanten Ressourcen nur wenig sprachliches Wissen. Hierzu präsentieren wir eine Konstruktionsmethodik für eine neue Art von Ressource, die durch die Umwandlung vieler linguistischer Muster in einen zusammenhängenden Graphen von sprachlichen Ausdrücken geschaffen wird. Der abschließende vierte Beitrag adressiert einen fundamentalen Konstruktionsfehler von heutigen Relationsextraktionssystemen: Die ungültige Prämisse, dass sich relationale Informationen auf einzelne Sätze beschränken. Wir analysieren zunächst die Relevanz dieses Problems und entwickeln dann einen Ansatz, der es bestehenden Extraktionssystemen erlaubt, satzübergreifende Relationsextraktion auf der Ebene von Dokumenten durchzuführen.
URI: https://depositonce.tu-berlin.de//handle/11303/7374
http://dx.doi.org/10.14279/depositonce-6626
Exam Date: 27-Sep-2017
Issue Date: 2018
Date Available: 29-Jan-2018
DDC Class: 004 Datenverarbeitung; Informatik
Subject(s): information extraction
relation extraction
text analysis
natural language processing
Informationsextraktion
Relationsextraktion
Textanalyse
Sprachverarbeitung
License: https://creativecommons.org/licenses/by/4.0/
Appears in Collections:Inst. Softwaretechnik und Theoretische Informatik » Publications

Files in This Item:
File Description SizeFormat 
krause_sebastian.pdf5.27 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons