Working with real-world datasets

dc.contributor.advisorObermayer, Klausen
dc.contributor.authorSchöner, Holgeren
dc.contributor.grantorTechnische Universität Berlin, Fakultät IV - Elektrotechnik und Informatiken
dc.date.accepted2004-12-10
dc.date.accessioned2015-11-20T15:46:53Z
dc.date.available2005-01-12T12:00:00Z
dc.date.issued2005-01-12
dc.date.submitted2005-01-12
dc.description.abstractDatenanalyse mit Computer-Unterstützung ist bereits heute ein Thema von hoher Relevanz, mit Anwendungen in vielfältigen Gebieten wie Börsenkursanalyse, Bioinformatik, Sprachverarbeitung, oder Customer Relationship Management. Die Wichtigkeit nimmt in dem Maße weiter zu, in dem auch der Umfang der gesammelten und zu analysierenden Daten wächst. Aus diesem umfangreichen Gebiet werden hier drei Themen herausgegriffen. Zuerst wird ein konkretes Anwendungsproblem untersucht: Im Bereich Optical Imaging of Intrinsic Signals werden Verfahren gesucht, die neuronale Aktivitätsmuster aus hochgradig verrauschten und mit anderen Signalen überlagerten Bildsequenzen extrahieren. Ein bereits erfolgreich auf solche Daten angewandter Algorithmus der blinden Quellentrennung (Extended Spatial Decorrelation) wird mittels eines Regularisierungsansatzes erweitert, um Vorwissen über den Zeitverlauf des interessierenden Signals einbringen zu können. Ein Vergleich verschiedener Varianten dieses Algorithmus zeigt, dass die Extraktion der gesuchten Quelle zuverlässiger wird. Zwei Herausforderungen für Klassifikation und Regression sind fehlende Werte und heterogene Merkmale. Ein Großteil der Literatur zu fehlenden Werten setzt sich hauptsächlich mit der Qualität von Parameterschätzungen für statistische Modelle auseinander. Im Rahmen dieser Arbeit liegt der Schwerpunkt dagegen auf Ansätzen, die für die Vorhersage von Zielmerkmalen geeignet sind. Verfahren, die für die eine Sichtweise sinnvoll erscheinen, müssen dies nicht notwendigerweise auch für die andere sein. Eine Einführung in dieses Thema bietet einen Überblick veröffentlichter Ansätze. Weiterhin werden zwei Methoden vorgestellt, die direkt, d.h. ohne Vorverarbeitung der Daten, den Umgang mit fehlenden Werten erlauben. Zum einen werden dazu Support-Vektor Maschinen mit Gauß-Kernen erweitert, zum anderen wird ein auf Entropie-Maximierung basierendes statistisches Modell (Approximate Maximum Entropy, AME) präsentiert und weiterentwickelt. Beide können die Vorhersagequalität für unvollständige Datensätze verbessern (gegenüber Standardverfahren zur Behandlung fehlender Werte, bzw. gegenüber konkurrierenden Lernverfahren). Fälle, für die dies zu erwarten ist, werden diskutiert. Viele Algorithmen zur Datenanalyse setzen eine gewisse Interpretation von Merkmalswerten als diskret oder kontinuierlich voraus. Trifft das nicht zu, kann dies für solche Algorithmen zum Problem werden. Eine Einführung diskutiert dies und behandelt bekannte Ansätze zum Umgang damit. In solchen Situationen erscheinen insbesondere statistische Modellesinnvoll, deren Verteilungen flexibel sind, d.h. sowohl für diskrete als auch für kontinuierliche Daten geeignet. Das im weiteren Verlauf vorgestellte AME Modell ist ein Beispiel für ein solches. Durch die Wahl der von diesem Modell gelernten Nebenbedingungen kann es flexibel an die Struktur der vorhandenen Daten angepasst werden. Ein Vergleich mit Support Vektor Maschinen und Multilagen-Perzeptrons zeigt Fälle auf, für die ein solches Modell von Vorteil sein kann.de
dc.description.abstractData analysis today is an area of high relevance to science and everyday predictions, with applications like stock exchange rate analysis, bioinformatics, natural language processing, or customer relationship management. The importance increases to the same extent as the collected data sets grow. Out of this wide area, three topics are picked in the following. Firstly, an application in image analysis is studied, optical imaging of intrinsic signals. There, methods are needed which extract neuronal activity patterns from highly noisy image sequences, which also contain strong signals from other sources. Extended Spatial Decorrelation is a blind source separation algorithm, which is already successfully applied to such data. It is extended by a regularization approach, which allows to incorporate prior knowledge about the time course of the signal of interest. A comparison between different variants of this algorithm shows that the extraction of the relevant source becomes more reliable. Two challenges for classification and regression are missing values and heterogeneous features. The majority of literature about missing values is concerned with the quality of parameter estimation for statistical models. On the other hand, the scope of this thesis are methods, which are suitable for prediction of target features. Approaches sensible for one task need not be appropriate for the other. An introduction into this field gives an overview of published methods. Furthermore, two methods are presented which allow to directly handle missing values, i.e. without prior preprocessing. Support vector machines with Gauss kernels are extended, and a statistical model based on entropy maximization (Approximate Maximum Entropy, AME) is presented and refined. Both can improve predictions for incomplete data sets (when compared to standard methods for handling missing values, or compared to competing learning methods, respectively). Cases for which this is to be expected are discussed. Many algorithms for data analysis interpret values of features as either discrete or continuous. If this assumption is not met by all features then problems concerning predictive performance can arise. An introduction discusses such problems and approaches to deal with them. In such situations, statistical models with highly flexible feature distributions(suitable for discrete and continuous features) appear sensible. The AME~model, which is introduced in the following, is an example for such models. By choosing the constraints learned by the model appropriately, it can be adapted to the structure of available data. A comparison with support vector machines and multilayer perceptrons shows cases, for which such a model can provide advantages.en
dc.identifier.uriurn:nbn:de:kobv:83-opus-7550
dc.identifier.urihttps://depositonce.tu-berlin.de/handle/11303/1151
dc.identifier.urihttp://dx.doi.org/10.14279/depositonce-854
dc.languageEnglishen
dc.language.isoenen
dc.rights.urihttp://rightsstatements.org/vocab/InC/1.0/en
dc.subject.ddc004 Datenverarbeitung; Informatiken
dc.subject.otherNäherungsweise Entropie-Maximierungde
dc.subject.otherSupport-Vektor Maschinende
dc.subject.otherblinde Quellentrennungde
dc.subject.otherfehlende Wertede
dc.subject.otherApproximate maximum entropyen
dc.subject.othersupport vector machinesen
dc.subject.otherblind source separationen
dc.subject.otheroptical imagingen
dc.subject.otherdata analysisen
dc.subject.othermissing valuesen
dc.titleWorking with real-world datasetsen
dc.title.subtitlePreprocessing and prediction with large incomplete and heterogeneous datasetsen
dc.title.translatedArbeiten mit realen Datensätzende
dc.typeDoctoral Thesisen
dc.type.versionpublishedVersionen
tub.accessrights.dnbfree*
tub.affiliationFak. 4 Elektrotechnik und Informatikde
tub.affiliation.facultyFak. 4 Elektrotechnik und Informatikde
tub.identifier.opus3755
tub.identifier.opus4761
tub.publisher.universityorinstitutionTechnische Universität Berlinen

Files

Original bundle
Now showing 1 - 1 of 1
Loading…
Thumbnail Image
Name:
Dokument_11.pdf
Size:
2.08 MB
Format:
Adobe Portable Document Format

Collections