Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-14763
For citation please use:
Main Title: Uniform concentration of tensor and neural networks
Subtitle: an approach towards recovery guarantees
Translated Title: Gleichförmige Konzentration von Tensor- und Neuronalen Netzwerken
Translated Subtitle: ein Ansatz zur Herleitung von Generalisierungsgarantien
Author(s): Goeßmann, Alex Christoph
Advisor(s): Schneider, Reinhold
Kutyniok, Gitta
Referee(s): Schneider, Reinhold
Eisert, Jens
Kliesch, Martin
Granting Institution: Technische Universität Berlin
Type: Doctoral Thesis
URI: https://depositonce.tu-berlin.de/handle/11303/15990
http://dx.doi.org/10.14279/depositonce-14763
License: https://creativecommons.org/licenses/by/4.0/
Abstract: This thesis contributes to the uniform concentration approach towards guaranteeing the generalization of learned models. We show probabilistic bounds on various uniform concentration events and demonstrate their utility in recovery guarantees. The thesis is organized in three parts. In the first part, we develop a unified theoretical framework for the concentration of random variables and the uniform concentration of stochastic processes. We introduce functionals of stochastic processes and apply them in bounds on the supremum. Then we develop methods to transfer uniform concentration events into success guarantees for empirical risk minimization problems. The second part of this thesis investigates classes of structured random distributions. More precisely, we derive bounds on the uniform concentration of contracted random tensors, which are decomposable into tensor network formats. In particular, we show exact moment bounds on contracted Gaussian tensor networks, which are tensor networks consistent of independent standard Gaussian random cores. By applying comparison theorems for Gaussian variables, the upper moment bounds are extended to more generic Orlicz tensor networks, which are characterized by weaker assumptions made on the random cores. Furthermore, we derive bounds on the concentration of Haar tensor networks, which random cores follow the Haar distribution of Stiefel manifolds. For all examples we continue to provide probabilistic bounds on uniform concentration events, which imply recovery guarantees for tensor regression problems. We further apply our findings in deriving success guarantees for efficient algorithms solving tensor regression problems. In the third part, we transfer our findings to bounds on the uniform concentration of neural networks following two approaches. First, we derive concentration bounds for shallow ReLU networks with respect to standard Gaussian distributions, where we introduce parameter embeddings that capture the concentration structure. Second, we bound the Rademacher complexity of deep neural networks, which are activated by a contraction, by Rademacher complexities of linear functions. This enables the proof of recovery guarantees for neural networks, which are trained on structured data.
Diese Arbeit trägt zu der Generalisierungstheorie von statistisch gelernten Modellen bei. Sie beinhaltet den Beweis von Wahrscheinlichkeitsschranken an gleichförmige Konzentrationsereignisse und deren Anwendung in Generalisierungsgarantien. Die Arbeit ist in drei Teile gegliedert. Im ersten Teil werden allgemeine Konzepte zur Beschreibung der Konzentration von Zufallsvariablen und der gleichförmigen Konzentration von stochastischen Prozessen entwickelt. Dazu werden Funktionale eingeführt und Schranken an die Suprema von stochastischen Prozessen bewiesen. Diese Schranken werden im Anschluss im Beweis von Generalisierungsgarantien für Lernprobleme angewandt. Der zweite Teil der Arbeit behandelt speziell strukturierte Wahrscheinlichkeitsverteilungen. Mit Fokus auf Tensornetzwerke wird die Konzentration von kontrahierten Zufallstensoren untersucht. Für den Fall von gaussverteilten Komponenten des Tensornetzwerkes werden exakte Schranken an die Momente der Kontraktionen bewiesen. Die oberen Schranken werden hierauf zu allgemeineren Klassen von Zufallstensornetzwerken erweitert. Zusätzlich werden Konzentrationsfunktionen von Tensornetzwerken, deren Komponenten von einem Haarmaß gezogen werden, beschränkt. Für alle Beispiele werden im Anschluss Schranken an die gleichförmige Konzentration bewiesen und diese auf Regressionsprobleme angewandt. Mithilfe dieser Ergebnisse werden nun effiziente Algorithmen zur Lösung von Tensorregressionsproblemen untersucht und Konvergenzgarantien entwickelt. Im dritten Teil der Arbeit wird die Konzentration von neuronalen Netzwerken mithilfe zweier Ansätzen behandelt. Erstens wird die Konzentration von flachen ReLU Netzwerken mithilfe einer Einbettung der Netzwerkparameter untersucht und unter der Annahme gaussverteilter Daten Konzentrationsschranken über Euklidische Abstände bewiesen. Zweitens wird die Rademacher Komplexität von tiefen neuronalen Netzwerken, deren Aktivierungsfunktion eine Kontraktion ist, auf die Rademacher Komplexität von linearen Funktionenklassen zurückgeführt. Dies ermöglicht nun Generalisierungsgarantien von neuronalen Netzwerken bezüglich strukturierter Datenverteilungen.
Subject(s): random tensors
tensor networks
generalization guarantees
structured random variables
neural networks
Zufallstensoren
Tensornetzwerke
Generalisierungsgarantien
strukturierte Zufallsvariablen
Neuronale Netzwerke
Issue Date: 2021
Date Available: 30-Dec-2021
Exam Date: 15-Dec-2021
Language Code: en
DDC Class: 519 Wahrscheinlichkeiten, angewandte Mathematik
TU Affiliation(s): Fak. 2 Mathematik und Naturwissenschaften » Inst. Mathematik » FG Modellierung, Simulation und Optimierung in Natur- und Ingenieurwissenschaften
Appears in Collections:Technische Universität Berlin » Publications

Files in This Item:
goessmann_alex_christoph.pdf
Format: Adobe PDF | Size: 1.91 MB
DownloadShow Preview
Thumbnail

Item Export Bar

This item is licensed under a Creative Commons License Creative Commons