Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-854
Main Title: Working with real-world datasets
Subtitle: Preprocessing and prediction with large incomplete and heterogeneous datasets
Translated Title: Arbeiten mit realen Datensätzen
Author(s): Schöner, Holger
Advisor(s): Obermayer, Klaus
Granting Institution: Technische Universität Berlin, Fakultät IV - Elektrotechnik und Informatik
Type: Doctoral Thesis
Language: English
Language Code: en
Abstract: Datenanalyse mit Computer-Unterstützung ist bereits heute ein Thema von hoher Relevanz, mit Anwendungen in vielfältigen Gebieten wie Börsenkursanalyse, Bioinformatik, Sprachverarbeitung, oder Customer Relationship Management. Die Wichtigkeit nimmt in dem Maße weiter zu, in dem auch der Umfang der gesammelten und zu analysierenden Daten wächst. Aus diesem umfangreichen Gebiet werden hier drei Themen herausgegriffen. Zuerst wird ein konkretes Anwendungsproblem untersucht: Im Bereich Optical Imaging of Intrinsic Signals werden Verfahren gesucht, die neuronale Aktivitätsmuster aus hochgradig verrauschten und mit anderen Signalen überlagerten Bildsequenzen extrahieren. Ein bereits erfolgreich auf solche Daten angewandter Algorithmus der blinden Quellentrennung (Extended Spatial Decorrelation) wird mittels eines Regularisierungsansatzes erweitert, um Vorwissen über den Zeitverlauf des interessierenden Signals einbringen zu können. Ein Vergleich verschiedener Varianten dieses Algorithmus zeigt, dass die Extraktion der gesuchten Quelle zuverlässiger wird. Zwei Herausforderungen für Klassifikation und Regression sind fehlende Werte und heterogene Merkmale. Ein Großteil der Literatur zu fehlenden Werten setzt sich hauptsächlich mit der Qualität von Parameterschätzungen für statistische Modelle auseinander. Im Rahmen dieser Arbeit liegt der Schwerpunkt dagegen auf Ansätzen, die für die Vorhersage von Zielmerkmalen geeignet sind. Verfahren, die für die eine Sichtweise sinnvoll erscheinen, müssen dies nicht notwendigerweise auch für die andere sein. Eine Einführung in dieses Thema bietet einen Überblick veröffentlichter Ansätze. Weiterhin werden zwei Methoden vorgestellt, die direkt, d.h. ohne Vorverarbeitung der Daten, den Umgang mit fehlenden Werten erlauben. Zum einen werden dazu Support-Vektor Maschinen mit Gauß-Kernen erweitert, zum anderen wird ein auf Entropie-Maximierung basierendes statistisches Modell (Approximate Maximum Entropy, AME) präsentiert und weiterentwickelt. Beide können die Vorhersagequalität für unvollständige Datensätze verbessern (gegenüber Standardverfahren zur Behandlung fehlender Werte, bzw. gegenüber konkurrierenden Lernverfahren). Fälle, für die dies zu erwarten ist, werden diskutiert. Viele Algorithmen zur Datenanalyse setzen eine gewisse Interpretation von Merkmalswerten als diskret oder kontinuierlich voraus. Trifft das nicht zu, kann dies für solche Algorithmen zum Problem werden. Eine Einführung diskutiert dies und behandelt bekannte Ansätze zum Umgang damit. In solchen Situationen erscheinen insbesondere statistische Modellesinnvoll, deren Verteilungen flexibel sind, d.h. sowohl für diskrete als auch für kontinuierliche Daten geeignet. Das im weiteren Verlauf vorgestellte AME Modell ist ein Beispiel für ein solches. Durch die Wahl der von diesem Modell gelernten Nebenbedingungen kann es flexibel an die Struktur der vorhandenen Daten angepasst werden. Ein Vergleich mit Support Vektor Maschinen und Multilagen-Perzeptrons zeigt Fälle auf, für die ein solches Modell von Vorteil sein kann.
Data analysis today is an area of high relevance to science and everyday predictions, with applications like stock exchange rate analysis, bioinformatics, natural language processing, or customer relationship management. The importance increases to the same extent as the collected data sets grow. Out of this wide area, three topics are picked in the following. Firstly, an application in image analysis is studied, optical imaging of intrinsic signals. There, methods are needed which extract neuronal activity patterns from highly noisy image sequences, which also contain strong signals from other sources. Extended Spatial Decorrelation is a blind source separation algorithm, which is already successfully applied to such data. It is extended by a regularization approach, which allows to incorporate prior knowledge about the time course of the signal of interest. A comparison between different variants of this algorithm shows that the extraction of the relevant source becomes more reliable. Two challenges for classification and regression are missing values and heterogeneous features. The majority of literature about missing values is concerned with the quality of parameter estimation for statistical models. On the other hand, the scope of this thesis are methods, which are suitable for prediction of target features. Approaches sensible for one task need not be appropriate for the other. An introduction into this field gives an overview of published methods. Furthermore, two methods are presented which allow to directly handle missing values, i.e. without prior preprocessing. Support vector machines with Gauss kernels are extended, and a statistical model based on entropy maximization (Approximate Maximum Entropy, AME) is presented and refined. Both can improve predictions for incomplete data sets (when compared to standard methods for handling missing values, or compared to competing learning methods, respectively). Cases for which this is to be expected are discussed. Many algorithms for data analysis interpret values of features as either discrete or continuous. If this assumption is not met by all features then problems concerning predictive performance can arise. An introduction discusses such problems and approaches to deal with them. In such situations, statistical models with highly flexible feature distributions(suitable for discrete and continuous features) appear sensible. The AME~model, which is introduced in the following, is an example for such models. By choosing the constraints learned by the model appropriately, it can be adapted to the structure of available data. A comparison with support vector machines and multilayer perceptrons shows cases, for which such a model can provide advantages.
URI: urn:nbn:de:kobv:83-opus-7550
http://depositonce.tu-berlin.de/handle/11303/1151
http://dx.doi.org/10.14279/depositonce-854
Exam Date: 10-Dec-2004
Issue Date: 12-Jan-2005
Date Available: 12-Jan-2005
DDC Class: 004 Datenverarbeitung; Informatik
Subject(s): Näherungsweise Entropie-Maximierung
Support-Vektor Maschinen
blinde Quellentrennung
fehlende Werte
Approximate maximum entropy
support vector machines
blind source separation
optical imaging
data analysis
missing values
Usage rights: Terms of German Copyright Law
Appears in Collections:Fakultät 4 Elektrotechnik und Informatik » Publications

Files in This Item:
File Description SizeFormat 
Dokument_11.pdf2.13 MBAdobe PDFThumbnail
View/Open


Items in DepositOnce are protected by copyright, with all rights reserved, unless otherwise indicated.