Solving parametric PDEs with neural networks: unfavorable structure vs. expressive power
dc.contributor.author | Raslan, Mones Konstantin | |
dc.contributor.grantor | Technische Universität Berlin | en |
dc.contributor.referee | Mehrmann, Volker | |
dc.contributor.referee | Grohs, Philipp | |
dc.contributor.referee | Bölcskei, Helmut | |
dc.date.accepted | 2021-03-23 | |
dc.date.accessioned | 2021-04-23T14:18:18Z | |
dc.date.available | 2021-04-23T14:18:18Z | |
dc.date.issued | 2021 | |
dc.description.abstract | This cumulative dissertation extends the theory of neural networks (NNs). In the first part of this thesis, [PRV20] in Appendix A, we provide a general analysis of the hypothesis class of NNs from a structural point of view. Here, we examine the algebraic and topological properties of the set of NNs with fixed architecture. We establish that this set is never convex, hardly ever closed in classical function spaces and that the parametrization of NNs is not inverse stable. These observations could, in practice, lead to highly undesirable phenomena such as diverging weights or slow convergence of the underlying training algorithm. The second part of this thesis deals with the concrete application of solving parametric partial differential equations (PDEs) by NNs. In typical modeling tasks, it is required to solve some PDE for different characterizing parameters such as the shape of the domain, the boundary conditions, or the right-hand side. In this context, the development of algorithms that are able to efficiently and accurately compute the solution for a new input is imperative. A large variety of reduced order models, taking into account the low-dimensionality of the solution set, have been developed in the past. Moving away from model-based techniques and motivated by their success in applications, in this thesis we focus on a data-driven approach based on NNs for the solution of parametric PDEs. A factor in favor of their use is their ability to calculate a new solution with little computational effort after training, when compared to the cost of the training phase. The focus of this part of the thesis lies on an examination of the expressive power of NNs for solutions of parametric PDEs. We first derive in [GR21] (see Appendix B) almost optimal approximation rates for smooth functions by NNs with encodable weights, measured with respect to Sobolev norms. These results continue a long avenue of research and provide a consolidating proof strategy for deriving expressivity results based on the regularity of the target function. However, if we apply the results from [GR21] to the approximation of the solution map of parametric PDEs, we might end up with sub-optimal rates. In fact, the upper bounds from [GR21] completely ignore the low-dimensionality of the solution manifold. A remedy to overcome this drawback is our theoretical analysis [KPRS21] (see Appendix C) that establishes improved upper complexity bounds for the approximation of the solution map based on the intrinsic dimension of the solution set. Although theoretical approximation results of the above flavor give some intuition for the success of NNs, they can at most partially explain why NNs work so well in practice. Moreover, it is not clear, to which extent purely asymptotic approximation rates are visible in practice. In our last contribution to this thesis, [GPRSK20] in Appendix D, we provide a comprehensive and systematic numerical study for the practical observation of approximation rates. We concentrate on a large variety of parametrizations of the Poisson equation. We derive numerical complexity bounds for the approximation of the solution map by NNs that do not suffer from the curse of dimensionality and only weakly depend on the dimension of the parameter space. Concluding, we observe that NNs, despite their unfavorable structure, possess a huge potential for their application within the framework of parametric PDEs. | en |
dc.description.abstract | Die vorliegende Dissertation erweitert die Theorie neuronaler Netze (NNe). Zunächst untersuchen wir im ersten Teil dieser Arbeit, [PRV20] in Appendix A, die strukturellen Merkmale der Menge der NNe mit fester Architektur. Dabei legen wir einen besonderen Fokus auf ihre algebraischen und topologischen Eigenschaften. Wir stellen fest, dass die Menge nie konvex ist, selten abgeschlossen in klassischen Funktionenräumen ist, und dass die Parametrisierung NNe nicht invers stabil ist. Die praktisch denkbaren Konsequenzen dieser Resultate sind unerwünschte Phänomene wie explodierende Gewichte oder die langsame Konvergenz des zugrundeliegenden Trainingsalgorithmus'. Der zweite Teil der Arbeit beschäftigt sich mit der konkreten Anwendung der Lösung von parametrischen partiellen Differentialgleichungen (parametrischen PDGen) durch NNe. Eine Vielzahl von Anwendungen erfordert die Lösung einer PDG für verschiedene Parameter, die die Gleichung charakterisieren. Dazu zählen z.B. die Form des zugrundeliegenden Gebiets, die rechte Seite oder die Randbedingungen. In solch einem Zusammenhang ist die Entwicklung effizienter und genauer Algorithmen notwendig, welche eine Approximation der tatsächlichen Lösung für einen neuen Parameter schnell ermitteln können. In der Vergangenheit wurde eine Vielzahl von Methoden zur Reduktion der Modellordnung entwickelt, welche auf der Niedrigdimensionalität der Lösungsmenge basieren. Im Gegensatz zu klassischen, modell-basierten Methoden und motiviert durch ihren Erfolg in vielen praktischen Anwendungen beschäftigen wir uns in der vorliegenden Arbeit mit der Lösung von parametrischen PDGs durch NNe, welche mit einem daten-basierten Ansatz trainiert werden. Diese sind nach dem Training in der Lage, eine neue Lösung mit vergleichsweise kleinem Rechenaufwand zu bestimmen. Die Expressivität von NNen für die Lösung von parametrischen PDGen wird den Fokus des zweiten Teils der Dissertation bilden. Wir beginnen in [GR21] (siehe Appendix B) damit, quasi-optimale Raten für die Approximation von hinreichend glatten Funktionen durch NNe mit kodierbaren Gewichten in Sobolevräumen herzuleiten. Diese Ergebnisse setzen eine seit langem bestehende Forschungslinie fort, welche Raten basierend auf der Glattheit der Zielfunktion beinhalten. Wenn wir die in [GR21] gezeigten Resultate allerdings für die Approximation der Lösungsabbildung von parametrischen PDGen benutzen wollen, so erhalten wir u.U. suboptimale Raten. Dies ist der Tatsache geschuldet, dass die oberen Schranken aus [GR21] die Niedrigdimensionalität der Lösungsmannigfaltigkeit außer Acht lassen. In der Arbeit [KPRS21] (siehe Appendix C) leiten wir verbesserte obere Schranken für die Annäherung der Lösungsabbildung her. Diese fußen auf der Dimension der Lösungsmenge. Obwohl die soeben beschriebenen, approximations-theoretischen Überlegungen einen Einblick in den Erfolg von NNen in Anwendungen geben, so können sie diesen nur teilweise erklären. Weiterhin ist nicht klar, inwiefern die bewiesenen asymptotischen Raten auch in der Praxis sichtbar sind. In dem letzten Teil der Dissertation, [GPRSK20] in Appendix D, führen wir eine umfangreiche und systematische numerische Studie für die Beobachtung praktisch relevanter Approximationsraten durch. Wir konzentrieren uns hierbei auf eine Vielzahl von Parametrisierungen der Poissongleichung. Wir leiten numerische Schranken für die Annäherung der Lösungsabbildung durch NNe her, welche nicht unter dem Fluch der Dimensionalität leiden und nur schwach von der Dimension des Parameterraums abhängen. Abschließend stellen wir fest, dass NNe, trotz ihrer ungünstigen Struktur, ein hohes Potential für die Anwendung im Kontext von parametrischen PDGen besitzen. | de |
dc.identifier.uri | https://depositonce.tu-berlin.de/handle/11303/12513 | |
dc.identifier.uri | http://dx.doi.org/10.14279/depositonce-11332 | |
dc.language.iso | en | en |
dc.relation.haspart | 10.14279/depositonce-12520 | en |
dc.rights.uri | http://rightsstatements.org/vocab/InC/1.0/ | en |
dc.subject.ddc | 519 Wahrscheinlichkeiten, angewandte Mathematik | de |
dc.subject.other | neural networks | en |
dc.subject.other | approximation theory | en |
dc.subject.other | topological properties | en |
dc.subject.other | parametric PDEs | en |
dc.subject.other | deep learning | en |
dc.subject.other | neuronale Netze | de |
dc.subject.other | Approximationstheorie | de |
dc.subject.other | topologische Eigenschaften | de |
dc.subject.other | parametrische Differentialgleichungen | de |
dc.subject.other | tiefes Lernen | de |
dc.title | Solving parametric PDEs with neural networks: unfavorable structure vs. expressive power | en |
dc.title.translated | Lösen parametrischer Differentialgleichungen mit neuronalen Netzen: ungünstige Struktur contra Expressivität | de |
dc.type | Doctoral Thesis | en |
dc.type.version | acceptedVersion | en |
tub.accessrights.dnb | domain | en |
tub.affiliation | Fak. 2 Mathematik und Naturwissenschaften::Inst. Mathematik::FG Angewandte Funktionalanalysis | de |
tub.affiliation.faculty | Fak. 2 Mathematik und Naturwissenschaften | de |
tub.affiliation.group | FG Angewandte Funktionalanalysis | de |
tub.affiliation.institute | Inst. Mathematik | de |
tub.publisher.universityorinstitution | Technische Universität Berlin | en |