Stationary Subspace Analysis: Towards understanding non-stationary data

Bünau, Paul von

Stationary Subspace Analysis: Towards understanding non-stationary data

Bünau, Paul von

Das Thema dieser Dissertation sind statistische Methoden für das Verständnis zeitlicher Veränderung der gemeinsamen Verteilung multivariater Daten. Wir betrachten den sogenannten explorativen Fall, in dem keinerlei zusätzlichen Informationen, z.B. über relevante Zeitpunkte oder einen kontrollierten Stimulus, verfügbar sind. Der zentrale Beitrag dieser Arbeit ist die Entwicklung des ersten unüberwachten Verfahrens, Stationary Subspace Analysis (SSA), welches eine lineare Koordinatentransformation findet, die die beobachteten Daten in eine Gruppe von stationären und nicht-stationären Komponenten faktorisiert. Dies ist unerlässlich zur Analyse multivariater Daten, weil die wesentlichen Änderungen der gemeinsamen Verteilung die Abhängigkeiten zwischen den Variablen betreffen können. Daher erlaubt die univariate Betrachtung der Eingangsgrössen nicht notwendigerweise Rückschlüsse auf Änderungen der gemeinsamen Verteilung. Sowohl die nicht-stationären als auch die stationären Komponenten können nämlich in den beobachten Variablen vollständig unsichtbar bleiben. Dies ist vor allem dann der Fall, wenn die messbaren Grössen Überlagerungen der tatsächlich relevanten Variablen sind, welche nicht direkt gemessen werden können. Ein gutes Beispiel liefert die EEG Datenanalyse: die Elektroden auf der Kopfhaut messen die Beiträge einer Vielzahl neuronaler Quellen im Gehirn. Um die zeitliche Veränderung der Verteilung dieser Quellen zu verstehen ist es daher notwendig, die stationären von den nicht-stationären Signalanteilen zu trennen. In einer Anwendung auf EEG Daten zeigen wir zum Einen, dass SSA dies leistet und zum Anderen, dass die populären Koordinatentransformationen Principal Component Analysis (PCA) und Independent Component Analysis (ICA) dazu nicht in der Lage sind. Der zweite wesentliche Beitrag dieser Arbeit ist ein neuartiger Ansatz zur approximativen Lösung polynomieller Gleichungssystem eines bestimmten Typs. Aufbauend auf dem Konzept der generischen Polynome zeigen wir, das SSA als ein solches Problem formuliert werden kann. Dies führt zu einem neuen Algorithmus dessen Lösung nicht nur eindeutig, sondern in Spezialfällen auch exakter ist. Von einem theoretischen Standpunkt aus gesehen ist es besonders interessant, dass es dieser Ansatz erlaubt das SSA Problem direkt algebraisch zu lösen, anstatt wie in einem Optimierungsverfahren nach der Lösung zu suchen. Da die zugrunde liegenden Annahmen eher allgemein sind, lässt sich der Algorithmus möglicherweise direkt auf andere Probleme im Maschinellen Lernen anwenden, die als Lösung polynomieller Gleichungen formuliert werden können.

This thesis is about statistical methods for understanding change in the joint distribution of observed multivariate data over time. The setting we consider is completely explorative or unsupervised: no auxiliary information regarding the distribution changes is available. We propose the first unsupervised method, stationary subspace analysis (SSA), for finding a linear coordinate transformation which factorises the observed data into stationary and non-stationary components. This is essential because the relevant changes can occur in the dependencies between variables, which means that the input variables can be totally uninformative: in fact, the non-stationary and the stationary part can remain completely invisible in the observations. In practice, this is often the case when one can only measure superpositions of the actual variables of interest. For example, in EEG analysis, electrodes on the surface of the scalp record activity from several neural sources located inside the brain. As we show in this thesis, investigating changing behaviour in brain sources crucially depends on the separation of the stationary and non-stationary components in the recorded signals. The second main contribution of this thesis is a novel approach to finding particular types of approximative solutions to systems of polynomial equations of arbitrary degree based on techniques from computational algebraic geometry. Using the concept of generic polynomials, we show how SSA can be formulated in this framework. This leads to a new algorithm which has a unique solution and is more accurate in certain cases. From a theoretical perspective, the most interesting feature of this approach is that it allows us to solve the problem algebraically instead of searching for the solution guided by an objective function. As the assumptions underpinning the algorithm are rather general, it may be directly applicable to other problems in machine learning whose solution can be formulated in terms of polynomial equations.

Datenanalyse Maschinelles Lernen Nicht-stationäre Daten Statistik Data analysis Machine learning Non-stationary data Statistics

Dokument_23.pdf

Adobe PDF — 2.59 MB

Full item page

🆕 Date Issued:	2012-10-01
🗄 In DepositOnce:	2012-10-01

Stationary Subspace Analysis: Towards understanding non-stationary data

Bünau, Paul von

Inst. Softwaretechnik und Theoretische Informatik

Dokument_23.pdf