Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-4592
Main Title: Risk sensitive Markov decision processes
Translated Title: Risikosensitive Markow-Entscheidungsprozesse
Author(s): Shen, Yun
Referee(s): Opper, Manfred
Obermayer, Klaus
Stannat, Wilhelm
Stettner, Lukasz
Borkar, Vivek
Granting Institution: Technische Universität Berlin, Fakultät IV - Elektrotechnik und Informatik
Type: Doctoral Thesis
Language: English
Language Code: en
Abstract: Diese Dissertation untersucht risikosensitive sequenzielle Entscheidungsprobleme in stochastischen Umgebungen. Wir führen zunächst axiomatisch das Konzept von Valuation Function ein, welches Risikomaße aus der Finanzmathematik verallgemeinert. Dieses umfassende Modell deckt ebenfalls risikobezogene Modelle aus einer Vielfalt von anderen Disziplinen ab, insbesondere der Verhaltensökonomie und der kognitiven Neurowissenschaft. Durch eine Erweiterung mit Markov-Prozessen konstruieren wir sogenannte Valuation Maps, welche einen einheitlichen Rahmen für die Berücksichtigung von Risiken in Markov-Entscheidungsprozessen auf allgemeinen Räume erlauben. Hierbei untersuchen wir hauptsächlich zwei Arten von unbegrenzten risikosensitiven Bewertungen: Eine zeitlich diskontiertes und eine zeitlich gemitteltes Kriterium. Die damit verbundenen Optimierungsprobleme werden durch Bewertungsiteration gelöst. Für den diskontierten Fall schlagen wir einen neuen Ansatz vor, welcher von etablierten Paradigmen abweicht, aber dadurch im Einklang mit allgemein akzeptierter Literatur aus der Psychologie und Verhaltensökonomie ist. Um eine geometrische Konvergenzrate der Bewertungsiteration für das zeitlich gemittelte Kriterium zu gewährleisten, geben wir Lyapunov-Typ-Stabilitätsbedingungen an, welche etablierte Bedingungen für Markov-Ketten verallgemeinern. Unter Annahme einer bestimmten Klasse von Bewertungsfunktionen, des sogenannten Utility based Shortfall, leiten wir eine Familie von modellfreien risikosensitiven Reinforcement Learning Algorithmen ab, welche unsere Methode auf praktische Probleme anwendbar macht. Mit geeigneten Risikofunktionen können diese Algorithmen wichtige Eigenschaften des menschlichen Verhaltens aus der Prospect Theory replizieren, z.B.\ unterschiedliche Risikopräferenzen für Gewinne und Verluste, sowie die Form der subjektiven Wahrscheinlichkeitskurven. Zur Demonstration des Prinzips und der neuen Algorithmen wenden wir diese auf zwei Aufgaben an: 1) die Quantifizierung von menschliche Verhalten in einer sequentiellen Investitionsaufgabe und 2) die Simulation von algorithmischen Handel mit Aktien. In der ersten Aufgabe zeigt unsere risikosensitive Variante eine bessere Erklärung der Verhaltensdaten, und erlaubt erstmals eine Interpretation, welche konsistent mit der Prospect Theory ist. Die Analyse der gleichzeitig gemessenen fMRI Signale zeigt eine signifikante Korrelation einiger Modellvariablen mit BOLD Signaländerungen im ventralen Striatum. Auch in der zweiten Aufgabe zeigt unser Algorithmus eine starke Performance. Sowohl das Risiko über den gesamten Testzeitraum, als auch in besonderen Krisensituationen wie dem 2010 Flash Crash, ist deutlich niedriger als bei gewöhnlichen, risikoneutralen Reinforcement Learning Algorithmen.
This thesis investigates risk-sensitive sequential decision-making problems in an uncertain environment. We first introduce the axiomatic concept of valuation functions that generalize known concepts of risk measures in mathematical finance to cover most of the existing risk related models in various fields, in particular, behavioral economics and cognitive neuroscience. By applying this concept to Markov processes, we construct valuation maps and develop thereby a unified framework for incorporating risk into Markov decision processes on general spaces. Within the framework, we study mainly two types of infinite-horizon risk-sensitive criteria, discounted and average valuations, and solve the associated optimization problems by value iteration. For the discounted case, we propose a new discount scheme, which is different from the conventional form but consistent with existing literature, while for the average criterion, we state Lyapunov-type stability conditions that generalize known conditions for Markov chains to ensure the existence of solutions to the optimality equation and a geometric convergence rate for the value iteration. Applying a set of valuation functions, called utility-based shortfall, we derive a family of model-free risk-sensitive reinforcement learning algorithms for solving the optimization problems corresponding to risk-sensitive valuations. In addition, we find that when appropriate utility functions are chosen, agents' behaviors express key features of human behavior as predicted by prospect theory, for example, different risk preferences for gains and losses, as well as the shape of subjective probability curves. As a proof of principle for the applicability of the new algorithms, we apply them to two tasks, 1) to quantify human behavior in a sequential investment task and 2) to perform risk control in simulated algorithmic trading of stocks. In the first task, the risk-sensitive variant provides a significantly better fit to the behavioral data and it leads to an interpretation of the subject's responses which is indeed consistent with prospect theory. The analysis of simultaneously measured fMRI signals show a significant correlation of the risk-sensitive temporal difference error with BOLD signal change in the ventral striatum. In the second task, our algorithm outperforms the risk-neutral reinforcement learning algorithm by keeping the trading cost at a substantially low level at the spot when the 2010 Flash Crash happened, and significantly reducing the risk over the whole test period.
URI: urn:nbn:de:kobv:83-opus4-69694
http://depositonce.tu-berlin.de/handle/11303/4889
http://dx.doi.org/10.14279/depositonce-4592
Exam Date: 1-Jun-2015
Issue Date: 5-Aug-2015
Date Available: 5-Aug-2015
DDC Class: 500 Naturwissenschaften und Mathematik
Subject(s): Bestärkendes Lernen
Markow-Entscheidungsprozesse
Risikomaß
Risikosteuerung
Stabilität der nichtlinearen Operatoren
Markov decision process
Reinforcement learning
Risk measure
Risk-sensitive control
Stability of nonlinear operators
Creative Commons License: https://creativecommons.org/licenses/by/3.0/de/
Appears in Collections:Institut für Softwaretechnik und Theoretische Informatik » Publications
Institut für Mathematik » Publications

Files in This Item:
File Description SizeFormat 
shen_yun.pdf1.87 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons