Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-2556
Main Title: Machine Learning for Text Indexing: Concept Extraction, Keyword Extraction and Tag Recommendation
Translated Title: Maschinelles Lernen für Text Indexierung: Concept Extraction, Keyword Extraction und Tag Recommendation
Author(s): Murfi, Hendri
Advisor(s): Obermayer, Klaus
Granting Institution: Technische Universität Berlin, Fakultät IV - Elektrotechnik und Informatik
Type: Doctoral Thesis
Language: English
Language Code: en
Abstract: Aufgrund einiger Nachteile, vor allem wegen semantischer Fragen wie Synonymie und Polysemie, betrachtet man einige Ansätze, um die Leistung der Volltextindexierung zu verbessern. Der alternative Ansatz umfasst latent semantic indexing, keyword indexing, social indexing (Web 2.0) und linked data-based indexing (Semantisches Web). Das Ziel dieser Dissertation ist es, Methoden des Maschinelles Lernen für die alternativen Ansätze zu untersuchen. Die Einsatzgebiete sind concept extraction, keyword extraction und tag recommendation. Erstens wird eine neue Lernmethode vorgestellt, mit der Konzepte Textinhalten, welche durch vom Benutzer eingegebene Stichworte begleitet werden, extrahiert werden können. Das Lernen besteht aus zwei Ebenen, welche die beiden Arten von Textquellen separat ausführen. Auf der unteren Ebene werden die Konzepte und die Konzept-Dokument Beziehungen von der vom Benutzer erstellten Stichworte durch Nicht-negative Matrix Faktorisierung (NMF) entdeckt. Aufgrund dieser Beziehungen sind die Konzepte durch Wörter von anderen Textinhalten auf einer höheren Ebene angesiedelt. Es wird erwartet, dass diese Methode erfolgreich ist, weil die verborgenen Dokument Strukturen auf Stichwörtern basieren, die von Benutzern kreiert wurden, welcher die semantischen Inhalte der Dokumente versteht. Ein weiterer Vorteil dieses Ansatzes ist, dass das NMF zu einer kompakten und sauberen Dokument Darstellung führt. Andererseits ist die Konzept Extraktion aus Textinhalten durch die Methode der Nicht-negative kleinsten Quadrate (NNLS) sehr viel effizienter als die Methode der NMF. Daher ist diese Two-Level Learning Hierarchy (TLLH) nicht nur sicherer sondern auch effizienter als One-Level Learning Hierarchy (OLLH), das die Konzepte nur aus dem Textinhalt extrahiert. Darüber hinaus kann die Methode reicheren Wortschatz besitzen, weil Vokabeln aus den vom Benutzer erstellten Stichworten mit textlichen Inhalten kombiniert werden. Als nächstes wenden wir die extrahierten Konzepte für die Stichwort Extraktion an. Mit anderen Worten stellen wir ein neues Stichwort Extraktion Verfahren genannt Concept-Based Keyword Extraction (CBKE) vor. Die Grundidee der Methode ist, dass ein Terminus des Dokuments wichtig wird, wenn dieser Terminus auf wichtige Konzepte des Dokuments zugeordnet wird und an sich für das Dokument wichtig ist. Die Flexibilität in Bezug auf die Merkmale der Lerndaten ist ein Vorteil der Methode. Es kann auf Trainingsdaten arbeiten entweder mit oder ohne manuell zugewiesen Stichwort. Schliesslich wird sich dem CBKE auf Inhalt basierten Tag Empfehlungen im folksonomy zugewandt. Die Ergebnisse zeigen, dass die Tag Empfehlungen wettbewerbsf ähige Leistungen in ICML PKDD Discovery Challenge 2009 besitzt.
Due to some drawbacks, mainly because of semantic issues such as synonymy and polysemy, people consider some approaches to improve the performance of full-text indexing. The alternative approaches include latent semantic indexing, keyword indexing, social indexing (web 2.0) and linked data-based indexing (semantic web). The aim of this dissertation is to investigate the applications of machine learning methods for the alternative approaches. The application areas are concept extraction, keyword extraction and tag recom- mendation. Firstly, we propose a new learning method called two-level learning hierar- chy (TLLH) to extract concepts from tagged textual contents. This learning method executes separately the existing textual sources, i.e. the user-created tags and the textual contents. At the lower level, concepts and conceptdocument relationships are discovered by non-negative matrix factorization (NMF) algorithm based on the user-created tags. Having these relationships, the concepts are populated by terms existing in the textual contents at higher level. We expect this method to be successful because the hidden document structures are discovered based on tags collectively created by users who understand the semantic content of documents. Another advantage is that the NMF algorithm executes more compact and cleaner data representations. On the other hand, concept extraction from the textual contents is handled by non-negative least squares (NNLS) algorithm which is much more efficient than the NMF algorithm. Moreover, the TLLH approach may have richer vocabularies because it can combine vocabularies from the user-created tags and the textual contents. Therefore, this approach is not only more reliable but also more efficient than the standard one-level learning hierarchy (OLLH) which extracts concepts only from the textual contents. Next, we apply the extracted concepts for a keyword extraction method. In other words, we propose a new keyword extraction method called concept-based keyword ex- traction (CBKE). Its basic idea is that a term of a document is important if the term is associated to important concepts of the document and important itself in the document. The exibility regarding the characteristics of learning data is one of the advantages of the method. This method can operate on learning data either with or without manually assigned keywords. Finally, we apply our proposed CBKE methods to content-based tag recommendations in folksonomy. The results show that the tag recommendations have competitive performances in ICML PKDD Discovery Challenge 2009.
URI: urn:nbn:de:kobv:83-opus-27748
http://depositonce.tu-berlin.de/handle/11303/2853
http://dx.doi.org/10.14279/depositonce-2556
Exam Date: 31-Aug-2010
Issue Date: 8-Sep-2010
Date Available: 8-Sep-2010
DDC Class: 004 Datenverarbeitung; Informatik
Subject(s): Maschinelles Lernen
Nonnegative Matrix Factorization
Text Indexierung
Machine Learning
Nonnegative Matrix Factorization
Text Indexing
Usage rights: Terms of German Copyright Law
Appears in Collections:Technische Universität Berlin » Fakultäten & Zentralinstitute » Fakultät 4 Elektrotechnik und Informatik » Institut für Softwaretechnik und Theoretische Informatik » Publications

Files in This Item:
File Description SizeFormat 
Dokument_21.pdf1.05 MBAdobe PDFThumbnail
View/Open


Items in DepositOnce are protected by copyright, with all rights reserved, unless otherwise indicated.