Content Modeling for Automatic Document Summarization

dc.contributor.advisorAlbayrak, Sahinen
dc.contributor.authorHennig, Leonharden
dc.contributor.grantorTechnische Universität Berlin, Fakultät IV - Elektrotechnik und Informatiken
dc.date.accepted2011-11-22
dc.date.accessioned2015-11-20T20:55:13Z
dc.date.available2011-11-30T12:00:00Z
dc.date.issued2011-11-30
dc.date.submitted2011-11-30
dc.description.abstractHerkömmliche Suchmaschinen filtern die großen Mengen im Internet verfügbarer Daten durch die Abbildung einer Nutzer-Suchanfrage auf eine potentiell große Menge von Dokumenten. Das Auffinden der gesuchten Informationen innerhalb dieser Dokumente bleibt jedoch Aufgabe des Nutzers. Daher ist die Entwicklung computergestützten Methoden essentiell, welche über herkömmliche, dokumentenzentrische Informationsbeschaffungslösungen hinausgehen, und die den Nutzer bei der Verarbeitung großer Dokumentenmengen und darin enthaltener Informationen unterstützen. Automatisierte Textzusammenfassung ist eine solche Technologie, da Zusammenfassungen konzise die Kernpunkte wesentlich größerer Quelltexte zusammentragen und dabei irrelevante und redundante Informationen herausfiltern. Textzusammenfassungssysteme können also ein mächtiges Werkzeug zur Reduktion der von einem Nutzer zu verarbeitenden Datenmengen darstellen. Im Rahmen dieser Arbeit werden Algorithmen zur personalisierten Zusammenfassung von Kollektionen thematisch aufeinander bezogener Nachrichtenartikel entworfen und evaluiert. Von speziellem Interesse ist hierbei die Identifikation der Unterthemen, die das übergeordnete Hauptthema einer solchen Kollektion strukturieren, da dieses die Bestimmung wesentlicher Inhalte und die Erkennung von Redundanzen erleichtert. Existierende Modellierungsverfahren berücksichtigen nicht in ausreichendem Maße die Mehrdeutigkeit natürlicher Sprache und die Begrenztheit von Satzvokabularen. Die in dieser Arbeit entwickelten Algorithmen hingegen werten Wortkontextinformationen zur Themenerkennung aus, und profitieren von den dadurch gegebenen Zusatzinformationen bei der Erstellung personalisierter Zusammenfassungen. Ausführliche Tests in verschiedenen Szenarien und für unterschiedliche Datensätze zeigen, dass die entwickelten Lösungen Zusammenfassungen von höherer Qualität liefern als existierende Ansätze. Nachrichtenartikel, die über ein bestimmtes Ereignis berichten, sind nicht nur ähnlich in Hinblick auf ihre Unterthemen, sondern enthalten auch oft die gleichen Fakten. Die Erkennung ähnlicher Fakten ist eine wünschenswerte, aber derzeit ungelöste Teilaufgabe von Zusammenfassungssystemen, da eine Bewertung der semantischen Ähnlichkeit von Teilsätzen nicht mit der benötigten Präzision möglich ist. Einen weiteren Schwerpunkt dieser Arbeit bilden daher eine ausführliche Analyse von faktenähnlichen Satzabschnitten in Nachrichtenartikeln und Referenzzusammenfassungen, sowie die Entwicklung eines Algorithmus zur Erkennung ähnlicher Teilsätze.de
dc.description.abstractCurrent search engines filter the vast amounts of information available on the Internet by retrieving a potentially large set of documents in response to a user's query. However, the burden of finding the searched-for information within these documents stays with the user. Computational methods that progress beyond today's document-centric information retrieval solutions are therefore essential to help users to cope with the sheer amount of relevant documents and the information they contain. Automatic text summarization is such a technology, as summaries present a concise gist of much larger subjects while filtering out irrelevant and redundant content. In addition, summaries can satisfy complex information needs in a personalized manner. Summarization can thus be a powerful tool to reduce the amount of information users have to process. This dissertation develops novel algorithms for the personalized summarization of collections of thematically related news articles. Of particular interest in this scenario is the identification of the various subtopics centered around the collection's main theme, which helps to determine important source content and reduce redundancies. However, the ambiguity of natural language and the sparsity of sentence vocabularies present problems that go beyond the capabilities of common modeling techniques. The algorithms introduced in this dissertation are especially tailored to reduce the effects of lexical variability and sparsity in order to derive more precise and robust summarization models. Exhaustive tests for different settings and various datasets show that the developed solutions produce summaries of higher quality than the current state-of-the-art. News articles reporting on the same event are similar not only in terms of the subtopics they address, but often also relate similar facts. Fact identification is a highly desirable, if yet unsolved, subtask of summarization, since an automatic assessment of the semantic similarity of phrasal text spans is currently not feasible with the required precision. The latter part of this thesis is dedicated to an extensive analysis of semantic, fact-like text units in news articles and human reference summaries and proposes a novel algorithm for the detection of text units that approximate human-annotated facts.en
dc.identifier.uriurn:nbn:de:kobv:83-opus-33372
dc.identifier.urihttps://depositonce.tu-berlin.de/handle/11303/3336
dc.identifier.urihttp://dx.doi.org/10.14279/depositonce-3039
dc.languageEnglishen
dc.language.isoenen
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/2.0/en
dc.subject.ddc004 Datenverarbeitung; Informatiken
dc.subject.otherComputerlinguistikde
dc.subject.otherGenerative Modellede
dc.subject.otherMaschinelles Lernende
dc.subject.otherTextzusammenfassungde
dc.subject.otherComputational linguisticsen
dc.subject.otherMachine learningen
dc.subject.otherText summarizationen
dc.subject.otherTopic modelsen
dc.titleContent Modeling for Automatic Document Summarizationen
dc.title.translatedInhaltsmodellierung für die automatische Dokumentenzusammenfassungde
dc.typeDoctoral Thesisen
dc.type.versionpublishedVersionen
tub.accessrights.dnbfree*
tub.affiliationFak. 4 Elektrotechnik und Informatik::Inst. Wirtschaftsinformatik und Quantitative Methodende
tub.affiliation.facultyFak. 4 Elektrotechnik und Informatikde
tub.affiliation.instituteInst. Wirtschaftsinformatik und Quantitative Methodende
tub.identifier.opus33337
tub.identifier.opus43155
tub.publisher.universityorinstitutionTechnische Universität Berlinen

Files

Original bundle
Now showing 1 - 1 of 1
Loading…
Thumbnail Image
Name:
Dokument_5.pdf
Size:
6.67 MB
Format:
Adobe Portable Document Format

Collections