Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-3039
Main Title: Content Modeling for Automatic Document Summarization
Translated Title: Inhaltsmodellierung für die automatische Dokumentenzusammenfassung
Author(s): Hennig, Leonhard
Advisor(s): Albayrak, Sahin
Granting Institution: Technische Universität Berlin, Fakultät IV - Elektrotechnik und Informatik
Type: Doctoral Thesis
Language: English
Language Code: en
Abstract: Herkömmliche Suchmaschinen filtern die großen Mengen im Internet verfügbarer Daten durch die Abbildung einer Nutzer-Suchanfrage auf eine potentiell große Menge von Dokumenten. Das Auffinden der gesuchten Informationen innerhalb dieser Dokumente bleibt jedoch Aufgabe des Nutzers. Daher ist die Entwicklung computergestützten Methoden essentiell, welche über herkömmliche, dokumentenzentrische Informationsbeschaffungslösungen hinausgehen, und die den Nutzer bei der Verarbeitung großer Dokumentenmengen und darin enthaltener Informationen unterstützen. Automatisierte Textzusammenfassung ist eine solche Technologie, da Zusammenfassungen konzise die Kernpunkte wesentlich größerer Quelltexte zusammentragen und dabei irrelevante und redundante Informationen herausfiltern. Textzusammenfassungssysteme können also ein mächtiges Werkzeug zur Reduktion der von einem Nutzer zu verarbeitenden Datenmengen darstellen. Im Rahmen dieser Arbeit werden Algorithmen zur personalisierten Zusammenfassung von Kollektionen thematisch aufeinander bezogener Nachrichtenartikel entworfen und evaluiert. Von speziellem Interesse ist hierbei die Identifikation der Unterthemen, die das übergeordnete Hauptthema einer solchen Kollektion strukturieren, da dieses die Bestimmung wesentlicher Inhalte und die Erkennung von Redundanzen erleichtert. Existierende Modellierungsverfahren berücksichtigen nicht in ausreichendem Maße die Mehrdeutigkeit natürlicher Sprache und die Begrenztheit von Satzvokabularen. Die in dieser Arbeit entwickelten Algorithmen hingegen werten Wortkontextinformationen zur Themenerkennung aus, und profitieren von den dadurch gegebenen Zusatzinformationen bei der Erstellung personalisierter Zusammenfassungen. Ausführliche Tests in verschiedenen Szenarien und für unterschiedliche Datensätze zeigen, dass die entwickelten Lösungen Zusammenfassungen von höherer Qualität liefern als existierende Ansätze. Nachrichtenartikel, die über ein bestimmtes Ereignis berichten, sind nicht nur ähnlich in Hinblick auf ihre Unterthemen, sondern enthalten auch oft die gleichen Fakten. Die Erkennung ähnlicher Fakten ist eine wünschenswerte, aber derzeit ungelöste Teilaufgabe von Zusammenfassungssystemen, da eine Bewertung der semantischen Ähnlichkeit von Teilsätzen nicht mit der benötigten Präzision möglich ist. Einen weiteren Schwerpunkt dieser Arbeit bilden daher eine ausführliche Analyse von faktenähnlichen Satzabschnitten in Nachrichtenartikeln und Referenzzusammenfassungen, sowie die Entwicklung eines Algorithmus zur Erkennung ähnlicher Teilsätze.
Current search engines filter the vast amounts of information available on the Internet by retrieving a potentially large set of documents in response to a user's query. However, the burden of finding the searched-for information within these documents stays with the user. Computational methods that progress beyond today's document-centric information retrieval solutions are therefore essential to help users to cope with the sheer amount of relevant documents and the information they contain. Automatic text summarization is such a technology, as summaries present a concise gist of much larger subjects while filtering out irrelevant and redundant content. In addition, summaries can satisfy complex information needs in a personalized manner. Summarization can thus be a powerful tool to reduce the amount of information users have to process. This dissertation develops novel algorithms for the personalized summarization of collections of thematically related news articles. Of particular interest in this scenario is the identification of the various subtopics centered around the collection's main theme, which helps to determine important source content and reduce redundancies. However, the ambiguity of natural language and the sparsity of sentence vocabularies present problems that go beyond the capabilities of common modeling techniques. The algorithms introduced in this dissertation are especially tailored to reduce the effects of lexical variability and sparsity in order to derive more precise and robust summarization models. Exhaustive tests for different settings and various datasets show that the developed solutions produce summaries of higher quality than the current state-of-the-art. News articles reporting on the same event are similar not only in terms of the subtopics they address, but often also relate similar facts. Fact identification is a highly desirable, if yet unsolved, subtask of summarization, since an automatic assessment of the semantic similarity of phrasal text spans is currently not feasible with the required precision. The latter part of this thesis is dedicated to an extensive analysis of semantic, fact-like text units in news articles and human reference summaries and proposes a novel algorithm for the detection of text units that approximate human-annotated facts.
URI: urn:nbn:de:kobv:83-opus-33372
http://depositonce.tu-berlin.de/handle/11303/3336
http://dx.doi.org/10.14279/depositonce-3039
Exam Date: 22-Nov-2011
Issue Date: 30-Nov-2011
Date Available: 30-Nov-2011
DDC Class: 004 Datenverarbeitung; Informatik
Subject(s): Computerlinguistik
Generative Modelle
Maschinelles Lernen
Textzusammenfassung
Computational linguistics
Machine learning
Text summarization
Topic models
Creative Commons License: https://creativecommons.org/licenses/by-nc-nd/2.0/
Appears in Collections:Technische Universität Berlin » Fakultäten & Zentralinstitute » Fakultät 4 Elektrotechnik und Informatik » Institut für Wirtschaftsinformatik und Quantitative Methoden » Publications

Files in This Item:
File Description SizeFormat 
Dokument_5.pdf6.83 MBAdobe PDFThumbnail
View/Open


Items in DepositOnce are protected by copyright, with all rights reserved, unless otherwise indicated.