Loading…
Thumbnail Image

Computing high-dimensional value functions of optimal feedback control problems using the Tensor-train format

Sallandt, Leon Jasper

We consider high-dimensional, non-linear functional equations. These functional equations are mostly the Bellman equation known from optimal control or related fields. Within this framework we deal with the occurring non-linearity using fixed-point iterations, for the most part the Policy Iteration algorithm, reducing them to a series of linear problems. These linear problems suffer from the so-called curse of dimensionality. We apply hierarchical tensor formats, in particular tensor-trains, to represent the sought function. Here, we also make use of an extension of the tensor-train format, where single functions can be added into the function space. The linear problems are approximated by regression and minimal residual formulations, which means that high-dimensional integrals appear. We apply Monte Carlo methods to estimate these integrals. Applying this framework, we compute feedback controllers of infinite and finite horizon optimal control problems. For the finite horizon case we also consider an algorithm based on open-loop control and provide a novel error propagation bound. We also consider the case of stochastic exit-time control problems. Finally, we consider a regression approach in the context of parabolic partial differential equations, which can be reformulated to backward stochastic differential equations. In this context, we apply the tensor-train model and compare to state-of-the-art neural network methods with respect to run-time and accuracy. We numerically observe that for many problems, low-rank approximation of the sought functions can be found, yielding close to optimal feedback controllers.
Wir betrachten hochdimensionale, nicht-lineare Funktionengleichungen, wie zum Beispiel die Bellmangleichung, bekannt aus dem Gebiet der optimalen Steuerung. Die auftretende nicht-Linearität behandeln wir mit Fixpunktiterationen, insbesondere der Policy Iteration, und erhalten damit eine Folge von linearen Problemen. Diese Probleme leiden in hohen Dimensionen unter dem sogenannten Fluch der Dimensionalität (curse of dimensionality), was wir mit der Verwendung von hierarchischen Tensorformaten, insbesondere Tensor-Trains, behandeln. Wir stellen damit die gesuchten Funktionen dar und verwenden auch eine Erweiterung des Konzepts, bei der einzelne Funktionen in den Funktionenraum hinzugefügt werden. Die auftretenden linearen Probleme werden dann mithilfe von Regression und ähnlichen Methoden gelöst. Die daher auftretenden hoch-dimensionalen Integrale werden mithilfe von Monte Carlo Methoden approximiert. Mithilfe dieses Ansatzes werden optimale Feedbacksteuerungen von verschiedenen Optimalsteuerungsproblemen berechnet - von (deterministischen) Problemen mit endlichem und unendlichem Zeithorizont zu stochastischen Problemen mit Exit-Bedingung. Schlussendlich werden noch allgemeine semi-lineare parabolische Differentialgleichungen mithilfe von backward stochastic differential equations gelöst, wobei wir die Ergebnisse mit state-of-the-art neuronalen Netz Methoden vergleichen. Hier achten wir auf die Genauigkeit der Ergebnisse und auf die Laufzeit des Algorithmus. Wir beobachten numerisch, dass für viele Probleme gute Approximationen der gesuchten Funktionen, und damit auch des optimalen Feedbackgesetzes, mithilfe des Tensor-Train Ansatzes gefunden werden können.