Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-1539
Main Title: Analysis of High Dimensional Data with Partial Least Squares and Boosting
Translated Title: Analyse von hochdimensionalen Daten mit Partial Least Squares und Boosting
Author(s): Krämer, Nicole
Advisor(s): Kockelkorn, Ulrich
Granting Institution: Technische Universität Berlin, Fakultät IV - Elektrotechnik und Informatik
Type: Doctoral Thesis
Language: English
Language Code: en
Abstract: In der statistischen Analyse von hoch dimensionalen Daten geht es darum, Zusammenhänge zwischen einer großen Menge p an Variablen mit Hilfe einer begrenzten Anzahl n an Beobachtungen zu modellieren. Die hohe Dimensionalität der Daten führt oft zu großen Problemen, denn für p> n versagen die traditionellen statistischen Verfahren. Zudem ist die Struktur der Daten oft komplexer. In dieser Arbeit soll die Analyse von hoch dimensionalen und komplexen Daten mit Hilfe von zwei Verfahren untersucht werden: Partial Least Squares und Boosting in Funktionenräumen. Partial Least Squares (PLS) modelliert den Zusammenhang zwischen verschiedenen Blöcken von Variablen mit Hilfe so genannter latenter Variablen. Im Fall von mehr als zwei Blöcken werden die PLS-Verfahren auch als Pfadmodelle bezeichnet und können als eine Erweiterung der Kanonischen Korrelationsanalyse angesehen werden. Die mathematischen Eigenschaften von PLS-Pfadmodellen sind zum großen Teil noch unerforscht. Zum Beispiel ist weder klar, ob die Algorithmen zur Berechnung der latenten Variablen im Pfadmodell numerisch konvergieren, noch, ob sie - falls sie konvergieren - Lösungen von sinnvollen Optimierungsproblemen darstellen. In dieser Arbeit wird ein sauberes mathematisches Gerüst für die Beschreibung der Pfadmodelle aufgestellt. Es wird gezeigt, dass zu einem großen Teil der PLS-Algorithmen tatsächlich kein zweimal differenzierbares Optimierungsproblem existiert. Zudem wird anhand von simulierten Daten gezeigt, dass für einen anderen Teil die PLS-Algorithmen nur zu einer lokalen Lösung eines Optimierungsproblems konvergieren können. PLS kann auch in Regressionsproblemen eingesetzt werden, in dem man die erklärenden und die abhängigen Variablen als jeweils einen Block auffasst. In diesem Fall ermöglicht PLS zudem eine Dimensionsreduktion der Daten, die wiederum hoffentlich zu besseren Vorhersagen führt. In dieser Arbeit wird eine Erweiterung von PLS um einen Strafterm vorgestellt und auf die Schätzung von generalisierten additiven Modellen (GAM's) angewandt. Es zeigt sich, dass insbesondere für hoch dimensionale Daten dieser Ansatz eine gute Alternative zu klassischen GAM-Verfahren ist. Ausgehend von der bereits bekannten Verbindung von PLS und dem Konjugierten-Gradienten-Verfahren wird gezeigt, dass PLS mit Strafterm äquivalent zu einem vorkonditionierten Konjugierten-Gradienten-Verfahren ist. Im Anschluss werden die Beziehungen zwischen der linearen Algebra und PLS ausgenutzt, um die so genannten „Shrinkage“-Eigenschaften von PLS empirisch zu untersuchen. Darüber hinaus wird ein unverzerrter Schätzer für die Freiheitsgrade von PLS ermittelt. Boosting ist ein Verfahren aus dem Bereich des Maschinellen Lernens.Die grundlegende Idee ist, verschiedene einfache Vorhersagemodelle so zu kombinieren, dass diese Kombination zu sehr viel besseren Vorhersagen führt. In dieser Arbeit werden Boostingverfahren für komplizierte Datenstrukturen entwickelt. Dabei interessiert uns vor allen Dingen der Fall, in dem die beobachteten Einflussgrößen (diskrete Messungen von) Funktionen sind. Die gängigen Boosting-Methoden basieren implizit auf der Annahme, dass die Einflussvariablen Werte in einem endlich dimensionalen Vektorraum annehmen. Es wird gezeigt, dass die Erweiterung auf unendlich dimensionale Funktionenräume ohne Weiteres möglich ist. Zudem wird illustriert, wie man mit Hilfe von Boostingverfahren wichtige Charakteristika der Funktionen aufdeckt und wie man damit leicht interpretierbare und visualisierbare Modelle erzeugt. Dies geschieht durch eine Transformation der Ausgangsdaten mit Hilfe von Wavelet- bzw. Fouriertransformationen.
The crucial task in the statistical analysis of high-dimensional data is to model relationships between a large amount p of variables based on a small number n of observations.The high dimensionality of the data often forms an obstacle, as for p> n, the traditional statistical techniques fail to produce satisfactory results. Furthermore, the structure of the data can be complex. In this work, we investigate high-dimensional and complex data with the help of two methods: Partial Least Squares and Boosting for functional data. Partial Least Squares (PLS) models the relationship between different blocks of variables in terms of so-called latent variables. In the case of more than two blocks, the PLS-techniques are also called path models and can be seen as a generalization of Canonical Correlation Analysis. The mathematical properties of PLS are for the most parts not yet established. For example, it is neither known whether the PLS algorithms converge numerically, nor - in the case that they converge - if they produce solutions of a sensible optimization criterion. In this work, we establish a sound mathematical framework for the description of PLS path models. We show that for a large part of the PLS algorithms, there is indeed no twice-differentiable optimization problem. Furthermore, we show on simulated data that another part of the PLS algorithms can converge only to a local solution of an optimization problem. PLS can also be used to solve regression problems. In this case, it leads to a substantial reduction of the dimension of the data, which hopefully leads to better prediction rules. In this work, we present an extension of PLS using penalization techniques. This method is then used to estimate generalized additive models (GAM's). This approach turns out to be a good alternative to traditional GAM-methods in the case of high-dimensional data. Based on the well-known relationship between PLS and the conjugate gradient technique, we prove that penalized PLS is equal to a preconditioned conjugate gradient technique. Subsequently, we exploit the connections between PLS and linear algebra to investigate empirically the so-called shrinkage properties of PLS. In addition, we derive an unbiased estimate of the degrees of freedom of PLS. Boosting has its seed in the machine learning community. The basic idea is to combine several, simple models in such a way that their combination leads to better prediction rules. In this work, we develop Boosting algorithms for complex data structures. Our focus is on data that are (discrete) measurements of curves. The established Boosting methods implicitly assume that the observed variables lie in a finite-dimensional vector space. We show that an extension of Boosting to infinite-dimensional function spaces is straightforward. Furthermore, we illustrate how to detect relevant features of the investigated functions and how to produce simple and interpretable models. This is done by applying wavelet or Fourier transformations to the data and by then applying suitable Boosting algorithms.
URI: urn:nbn:de:kobv:83-opus-14840
http://depositonce.tu-berlin.de/handle/11303/1836
http://dx.doi.org/10.14279/depositonce-1539
Exam Date: 15-Dec-2006
Issue Date: 21-Feb-2007
Date Available: 21-Feb-2007
DDC Class: 004 Datenverarbeitung; Informatik
Subject(s): Boosting
Dimensionsreduktion
Maschinelles Lernen
Partial Least Squares
Regression
Boosting
Dimension reduction
Machine learning
Partial Least Squares
Regression
Usage rights: Terms of German Copyright Law
Appears in Collections:Institut für Wirtschaftsinformatik und Quantitative Methoden » Publications

Files in This Item:
File Description SizeFormat 
Dokument_46.pdf1.14 MBAdobe PDFThumbnail
View/Open


Items in DepositOnce are protected by copyright, with all rights reserved, unless otherwise indicated.