Loading…
Algebraic statistics of Gaussian mixtures
Améndola Cerón, Carlos Enrique
In this work we study the statistical models known as Gaussian mixtures from an
algebraic point of view.
First, we illustrate how algebraic techniques can be useful to address funda-
mental questions on the shape of Gaussian mixture densities, namely the problem
of determining the maximum number of modes a mixture of Gaussians can have,
depending on the number of components and the dimension.
We proceed to look at the statistical problem of estimation of the parameters of
a Gaussian mixture. We present and compare the prominent methods of maximum
likelihood estimation and moment matching, and from this study a fundamental
difference in algebraic complexity is revealed between the two approaches.
With the above statistical motivations, we introduce the algebraic objects that
will permit us to obtain statistical inference results, mainly on the identifiability
problem. These objects are Gaussian moment varieties and their corresponding
secant varieties. We study them by asking for their dimension, for their degree
and for the equations that define them. We provide many answers, conjectures
and open questions in this direction.
Finally, we explore further connections and analogues to algebraic geometry
from commonly used submodels of statistical interest. We compare what we learn
from the algebraic perspective to recent tensor decomposition methods in the ma-
chine learning community.
Throughout, we mention current research directions that continue the effort of
including Gaussian densities and their mixtures in algebraic statistics.
In dieser Arbeit studieren wir die statistischen Modelle, die als zusammengeset-
zte Normalverteilungen oder auch als Gaußsche Mischverteilungen bekannt sind,
vom algebraischen Standpunkt aus.
Zunächst betrachten wir, wie algebraische Methoden dabei helfen können, grund-
legende Fragen über die Form der Dichte einer solchen Verteilung zu klären: Zum
Beispiel wollen wir die Anzahl lokaler Maxima bestimmen, die eine Mischung von
Gaußverteilungen, abhängig von der Anzahl der Komponenten sowie der Dimen-
sion, höchstens haben kann.
Anschließend beschäftigen wir uns mit der statistischen Fragestellung, wie man
die Modellparameter (Erwartungswerte und Varianzen der Komponenten sowie
deren Gewichte) bestimmen kann. Wir vergleichen die gängigen Methoden: die
Maximum-Likelihood-Methode und die Momentenmethode. Dieser Vergleich of-
fenbart einen grundlegenden Unterschied in der algebraischen Komplexität zwis-
chen den beiden Ansätzen.
Motiviert durch diese statistischen Erkenntnisse führen wir diejenigen algebrais-
chen Objekte ein, die uns statistische Ergebnisse – hauptsächlich zum Identifizier-
barkeitsproblem – liefern: die Gaußschen Momentenvarietäten und deren Sekan-
tenvarietäten. Wir untersuchen ihre Dimension sowie ihren Grad und die alge-
braischen Gleichungen, die sie definieren. Wir beantworten viele dieser Fragen
und formulieren weitere offene Fragen und Vermutungen.
Schließlich erforschen wir Verbindungen und Analogien zur algebraischen Ge-
ometrie aus gängigen Untermodellen, die von statistischer Relevanz sind. Wir
vergleichen unsere Erkenntnisse aus der Perspektive der algebraischen Geometrie
mit modernen Tensor-Zerlegungsmethoden aus dem Bereich des maschinellen Ler-
nens.
Wir verweisen durchgehend auf vielversprechende Forschungsfragen, die Nor-
malverteilungen und deren Mischverteilungen in die Algebraische Statistik mitein-
beziehen.