Knowledge-intensive, high-performance relation extraction

dc.contributor.advisorMarkl, Volker
dc.contributor.advisorUszkoreit, Hans
dc.contributor.authorKrause, Sebastian
dc.contributor.grantorTechnische Universität Berlinen
dc.contributor.refereeUszkoreit, Hans
dc.contributor.refereeMarkl, Volker
dc.contributor.refereeNakajima, Shinichi
dc.date.accepted2017-09-27
dc.date.accessioned2018-01-29T09:11:52Z
dc.date.available2018-01-29T09:11:52Z
dc.date.issued2018
dc.description.abstractResearch on information extraction (IE) from texts has attracted much attention for at least the past two decades. This is not surprising given its significance for applications such as personal digital assistants. Information extraction and its subtask relation extraction play a central role in data processing pipelines that make hidden knowledge such as the content of news articles available to downstream users. This thesis presents four main contributions to important questions of the corresponding research field. The first two contributions deal with various aspects of the automatic discovery of linguistic patterns, which we use for the detection of relations. We initially look at scenarios with predefined relations of interest. Here, state-of-the-art methods employ simplistic assumptions at training time, which has a drastic negative effect on both precision and coverage. We propose methods for the production and filtering of patterns that mitigate this shortcoming by leveraging existing knowledge about the target domains. Next, we address scenarios without a-priori relation definitions. Here, produced linguistic patterns need to be disambiguated to resolve their meaning, which is particularly hard for patterns in the long tail, which tend to get misinterpreted. Our proposed solution for this issue is the implementation of a global model that can generalize over many pattern occurrences and thus manages to handle rare patterns as well. The third contribution of this thesis focuses on the versatility of linguistic patterns beyond their designated use for extraction purposes. The patterns convey interesting information about the actual usage of language expressions, which is exactly what is missing in the current landscape of IE-relevant resources. More specifically, the relational information from world-knowledge graphs is not at all grounded in the language information present in lexical-semantic resources. We aim to remedy this de cit by proposing a construction methodology for a new kind of resource that is created by transforming many linguistic patterns into a single graph of language expressions. Finally, in the fourth contribution, we consider a fundamental shortcoming in the construction of systems for relation extraction, be they based on linguistic patterns or a different methodology. This flaw is the invalid premise that relational information is mostly contained within the boundaries of individual sentences. We initially address this problem with an analysis of its severity and follow-up by designing an approach that can easily be used to post-process the output of existing extraction systems and that allows them to produce cross-sentence relation mentions, and thereby resolves the design flaw.en
dc.description.abstractDie Forschung zur Informationsgewinnung aus Texten erregt seit mindestens zwei Jahrzehnten viel Aufmerksamkeit. Dies ist nicht überraschend angesichts des praktischen Nutzens, den sie für Anwendungen wie digitale Assistenzsysteme mit sich bringen. Informationsextraktion (IE) und das Teilgebiet Relationsextraktion spielen eine zentrale Rolle in Datenverarbeitungspipelines, welche strukturiertes Wissen aus unstrukturierten Quellen wie Nachrichtenartikeln gewinnen. Die vorliegende Arbeit präsentiert vier Hauptbeiträge zu wichtigen Fragen dieses Forschungsfeldes. Die ersten zwei Beiträge beschäftigen sich mit der automatischen Entdeckung sprachlicher Muster, welche für die Erkennung von Relationen verwendet werden. Wir betrachten zunächst Szenarien mit vorgegebenen Zieldomänen. Der Lernprozess aktueller Systeme in diesem Gebiet basiert auf stark vereinfachenden Abstraktionen, was Präzision und Abdeckung negativ beeinflusst. In dieser Arbeit beschreiben wir Methoden für die Generierung und Filterung von sprachlichen Mustern, die diesen Mangel beseitigen, indem sie vorhandenes Wissen über die Zieldomänen ausnutzen. Als nächstes behandeln wir Szenarien mit flexiblen Zieldomänen. Hier müssen gefundene sprachliche Muster gegeneinander disambiguiert werden, was mit heutigen Methoden besonders für Muster im Long-Tail der Häufigkeitsverteilung zu schlechten Resultaten führt. Zur Lösung dieses Problems schlagen wir die Verwendung eines globalen Modells vor, das über viele Mustererwähnungen verallgemeinert und dem es somit gelingt, seltene Muster korrekt zu interpretieren. Der dritte Beitrag dieser Arbeit konzentriert sich auf Verwendungszwecke der sprachlichen Muster, die über deren originäre Verwendung hinausgehen. Beispielsweise können die Muster als Quelle für Statistiken über den tatsächlichen Sprachgebrauch von Aus- drücken dienen. Ferner existiert derzeit unter den verfügbaren IE-relevanten Ressourcen nur wenig sprachliches Wissen. Hierzu präsentieren wir eine Konstruktionsmethodik für eine neue Art von Ressource, die durch die Umwandlung vieler linguistischer Muster in einen zusammenhängenden Graphen von sprachlichen Ausdrücken geschaffen wird. Der abschließende vierte Beitrag adressiert einen fundamentalen Konstruktionsfehler von heutigen Relationsextraktionssystemen: Die ungültige Prämisse, dass sich relationale Informationen auf einzelne Sätze beschränken. Wir analysieren zunächst die Relevanz dieses Problems und entwickeln dann einen Ansatz, der es bestehenden Extraktionssystemen erlaubt, satzübergreifende Relationsextraktion auf der Ebene von Dokumenten durchzuführen.de
dc.identifier.urihttps://depositonce.tu-berlin.de/handle/11303/7374
dc.identifier.urihttp://dx.doi.org/10.14279/depositonce-6626
dc.language.isoenen
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/en
dc.subject.ddc004 Datenverarbeitung; Informatikde
dc.subject.otherinformation extractionen
dc.subject.otherrelation extractionen
dc.subject.othertext analysisen
dc.subject.othernatural language processingen
dc.subject.otherInformationsextraktionde
dc.subject.otherRelationsextraktionde
dc.subject.otherTextanalysede
dc.subject.otherSprachverarbeitungde
dc.titleKnowledge-intensive, high-performance relation extractionen
dc.title.translatedWissensintensive, hochperformante Relationsextraktionde
dc.typeDoctoral Thesisen
dc.type.versionacceptedVersionen
tub.accessrights.dnbfreeen
tub.affiliationFak. 4 Elektrotechnik und Informatik::Inst. Softwaretechnik und Theoretische Informatikde
tub.affiliation.facultyFak. 4 Elektrotechnik und Informatikde
tub.affiliation.instituteInst. Softwaretechnik und Theoretische Informatikde
tub.publisher.universityorinstitutionTechnische Universität Berlinen

Files

Original bundle
Now showing 1 - 1 of 1
Loading…
Thumbnail Image
Name:
krause_sebastian.pdf
Size:
5.14 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
5.75 KB
Format:
Item-specific license agreed upon to submission
Description:

Collections