Working with real-world datasets

Schöner, Holger

Working with real-world datasets

dc.contributor.advisor	Obermayer, Klaus	en
dc.contributor.author	Schöner, Holger	en
dc.contributor.grantor	Technische Universität Berlin, Fakultät IV - Elektrotechnik und Informatik	en
dc.date.accepted	2004-12-10
dc.date.accessioned	2015-11-20T15:46:53Z
dc.date.available	2005-01-12T12:00:00Z
dc.date.issued	2005-01-12
dc.date.submitted	2005-01-12
dc.description.abstract	Datenanalyse mit Computer-Unterstützung ist bereits heute ein Thema von hoher Relevanz, mit Anwendungen in vielfältigen Gebieten wie Börsenkursanalyse, Bioinformatik, Sprachverarbeitung, oder Customer Relationship Management. Die Wichtigkeit nimmt in dem Maße weiter zu, in dem auch der Umfang der gesammelten und zu analysierenden Daten wächst. Aus diesem umfangreichen Gebiet werden hier drei Themen herausgegriffen. Zuerst wird ein konkretes Anwendungsproblem untersucht: Im Bereich Optical Imaging of Intrinsic Signals werden Verfahren gesucht, die neuronale Aktivitätsmuster aus hochgradig verrauschten und mit anderen Signalen überlagerten Bildsequenzen extrahieren. Ein bereits erfolgreich auf solche Daten angewandter Algorithmus der blinden Quellentrennung (Extended Spatial Decorrelation) wird mittels eines Regularisierungsansatzes erweitert, um Vorwissen über den Zeitverlauf des interessierenden Signals einbringen zu können. Ein Vergleich verschiedener Varianten dieses Algorithmus zeigt, dass die Extraktion der gesuchten Quelle zuverlässiger wird. Zwei Herausforderungen für Klassifikation und Regression sind fehlende Werte und heterogene Merkmale. Ein Großteil der Literatur zu fehlenden Werten setzt sich hauptsächlich mit der Qualität von Parameterschätzungen für statistische Modelle auseinander. Im Rahmen dieser Arbeit liegt der Schwerpunkt dagegen auf Ansätzen, die für die Vorhersage von Zielmerkmalen geeignet sind. Verfahren, die für die eine Sichtweise sinnvoll erscheinen, müssen dies nicht notwendigerweise auch für die andere sein. Eine Einführung in dieses Thema bietet einen Überblick veröffentlichter Ansätze. Weiterhin werden zwei Methoden vorgestellt, die direkt, d.h. ohne Vorverarbeitung der Daten, den Umgang mit fehlenden Werten erlauben. Zum einen werden dazu Support-Vektor Maschinen mit Gauß-Kernen erweitert, zum anderen wird ein auf Entropie-Maximierung basierendes statistisches Modell (Approximate Maximum Entropy, AME) präsentiert und weiterentwickelt. Beide können die Vorhersagequalität für unvollständige Datensätze verbessern (gegenüber Standardverfahren zur Behandlung fehlender Werte, bzw. gegenüber konkurrierenden Lernverfahren). Fälle, für die dies zu erwarten ist, werden diskutiert. Viele Algorithmen zur Datenanalyse setzen eine gewisse Interpretation von Merkmalswerten als diskret oder kontinuierlich voraus. Trifft das nicht zu, kann dies für solche Algorithmen zum Problem werden. Eine Einführung diskutiert dies und behandelt bekannte Ansätze zum Umgang damit. In solchen Situationen erscheinen insbesondere statistische Modellesinnvoll, deren Verteilungen flexibel sind, d.h. sowohl für diskrete als auch für kontinuierliche Daten geeignet. Das im weiteren Verlauf vorgestellte AME Modell ist ein Beispiel für ein solches. Durch die Wahl der von diesem Modell gelernten Nebenbedingungen kann es flexibel an die Struktur der vorhandenen Daten angepasst werden. Ein Vergleich mit Support Vektor Maschinen und Multilagen-Perzeptrons zeigt Fälle auf, für die ein solches Modell von Vorteil sein kann.	de
dc.description.abstract	Data analysis today is an area of high relevance to science and everyday predictions, with applications like stock exchange rate analysis, bioinformatics, natural language processing, or customer relationship management. The importance increases to the same extent as the collected data sets grow. Out of this wide area, three topics are picked in the following. Firstly, an application in image analysis is studied, optical imaging of intrinsic signals. There, methods are needed which extract neuronal activity patterns from highly noisy image sequences, which also contain strong signals from other sources. Extended Spatial Decorrelation is a blind source separation algorithm, which is already successfully applied to such data. It is extended by a regularization approach, which allows to incorporate prior knowledge about the time course of the signal of interest. A comparison between different variants of this algorithm shows that the extraction of the relevant source becomes more reliable. Two challenges for classification and regression are missing values and heterogeneous features. The majority of literature about missing values is concerned with the quality of parameter estimation for statistical models. On the other hand, the scope of this thesis are methods, which are suitable for prediction of target features. Approaches sensible for one task need not be appropriate for the other. An introduction into this field gives an overview of published methods. Furthermore, two methods are presented which allow to directly handle missing values, i.e. without prior preprocessing. Support vector machines with Gauss kernels are extended, and a statistical model based on entropy maximization (Approximate Maximum Entropy, AME) is presented and refined. Both can improve predictions for incomplete data sets (when compared to standard methods for handling missing values, or compared to competing learning methods, respectively). Cases for which this is to be expected are discussed. Many algorithms for data analysis interpret values of features as either discrete or continuous. If this assumption is not met by all features then problems concerning predictive performance can arise. An introduction discusses such problems and approaches to deal with them. In such situations, statistical models with highly flexible feature distributions(suitable for discrete and continuous features) appear sensible. The AME~model, which is introduced in the following, is an example for such models. By choosing the constraints learned by the model appropriately, it can be adapted to the structure of available data. A comparison with support vector machines and multilayer perceptrons shows cases, for which such a model can provide advantages.	en
dc.identifier.uri	urn:nbn:de:kobv:83-opus-7550
dc.identifier.uri	https://depositonce.tu-berlin.de/handle/11303/1151
dc.identifier.uri	http://dx.doi.org/10.14279/depositonce-854
dc.language	English	en
dc.language.iso	en	en
dc.rights.uri	http://rightsstatements.org/vocab/InC/1.0/	en
dc.subject.ddc	004 Datenverarbeitung; Informatik	en
dc.subject.other	Näherungsweise Entropie-Maximierung	de
dc.subject.other	Support-Vektor Maschinen	de
dc.subject.other	blinde Quellentrennung	de
dc.subject.other	fehlende Werte	de
dc.subject.other	Approximate maximum entropy	en
dc.subject.other	support vector machines	en
dc.subject.other	blind source separation	en
dc.subject.other	optical imaging	en
dc.subject.other	data analysis	en
dc.subject.other	missing values	en
dc.title	Working with real-world datasets	en
dc.title.subtitle	Preprocessing and prediction with large incomplete and heterogeneous datasets	en
dc.title.translated	Arbeiten mit realen Datensätzen	de
dc.type	Doctoral Thesis	en
dc.type.version	publishedVersion	en
tub.accessrights.dnb	free	*
tub.affiliation	Fak. 4 Elektrotechnik und Informatik	de
tub.affiliation.faculty	Fak. 4 Elektrotechnik und Informatik	de
tub.identifier.opus3	755
tub.identifier.opus4	761
tub.publisher.universityorinstitution	Technische Universität Berlin	en

Files

Original bundle

Now showing 1 - 1 of 1

Name:: Dokument_11.pdf
Size:: 2.08 MB
Format:: Adobe Portable Document Format

Download

Collections

Publications