Risk sensitive Markov decision processes

Shen, Yun

Risk sensitive Markov decision processes

dc.contributor.author	Shen, Yun	en
dc.contributor.grantor	Technische Universität Berlin, Fakultät IV - Elektrotechnik und Informatik	en
dc.contributor.referee	Opper, Manfred	en
dc.contributor.referee	Obermayer, Klaus	en
dc.contributor.referee	Stannat, Wilhelm	en
dc.contributor.referee	Stettner, Lukasz	en
dc.contributor.referee	Borkar, Vivek	en
dc.date.accepted	2015-06-01
dc.date.accessioned	2015-11-21T00:54:05Z
dc.date.available	2015-08-05T12:00:00Z
dc.date.issued	2015-08-05
dc.date.submitted	2015-07-30
dc.description.abstract	Diese Dissertation untersucht risikosensitive sequenzielle Entscheidungsprobleme in stochastischen Umgebungen. Wir führen zunächst axiomatisch das Konzept von Valuation Function ein, welches Risikomaße aus der Finanzmathematik verallgemeinert. Dieses umfassende Modell deckt ebenfalls risikobezogene Modelle aus einer Vielfalt von anderen Disziplinen ab, insbesondere der Verhaltensökonomie und der kognitiven Neurowissenschaft. Durch eine Erweiterung mit Markov-Prozessen konstruieren wir sogenannte Valuation Maps, welche einen einheitlichen Rahmen für die Berücksichtigung von Risiken in Markov-Entscheidungsprozessen auf allgemeinen Räume erlauben. Hierbei untersuchen wir hauptsächlich zwei Arten von unbegrenzten risikosensitiven Bewertungen: Eine zeitlich diskontiertes und eine zeitlich gemitteltes Kriterium. Die damit verbundenen Optimierungsprobleme werden durch Bewertungsiteration gelöst. Für den diskontierten Fall schlagen wir einen neuen Ansatz vor, welcher von etablierten Paradigmen abweicht, aber dadurch im Einklang mit allgemein akzeptierter Literatur aus der Psychologie und Verhaltensökonomie ist. Um eine geometrische Konvergenzrate der Bewertungsiteration für das zeitlich gemittelte Kriterium zu gewährleisten, geben wir Lyapunov-Typ-Stabilitätsbedingungen an, welche etablierte Bedingungen für Markov-Ketten verallgemeinern. Unter Annahme einer bestimmten Klasse von Bewertungsfunktionen, des sogenannten Utility based Shortfall, leiten wir eine Familie von modellfreien risikosensitiven Reinforcement Learning Algorithmen ab, welche unsere Methode auf praktische Probleme anwendbar macht. Mit geeigneten Risikofunktionen können diese Algorithmen wichtige Eigenschaften des menschlichen Verhaltens aus der Prospect Theory replizieren, z.B.\ unterschiedliche Risikopräferenzen für Gewinne und Verluste, sowie die Form der subjektiven Wahrscheinlichkeitskurven. Zur Demonstration des Prinzips und der neuen Algorithmen wenden wir diese auf zwei Aufgaben an: 1) die Quantifizierung von menschliche Verhalten in einer sequentiellen Investitionsaufgabe und 2) die Simulation von algorithmischen Handel mit Aktien. In der ersten Aufgabe zeigt unsere risikosensitive Variante eine bessere Erklärung der Verhaltensdaten, und erlaubt erstmals eine Interpretation, welche konsistent mit der Prospect Theory ist. Die Analyse der gleichzeitig gemessenen fMRI Signale zeigt eine signifikante Korrelation einiger Modellvariablen mit BOLD Signaländerungen im ventralen Striatum. Auch in der zweiten Aufgabe zeigt unser Algorithmus eine starke Performance. Sowohl das Risiko über den gesamten Testzeitraum, als auch in besonderen Krisensituationen wie dem 2010 Flash Crash, ist deutlich niedriger als bei gewöhnlichen, risikoneutralen Reinforcement Learning Algorithmen.	de
dc.description.abstract	This thesis investigates risk-sensitive sequential decision-making problems in an uncertain environment. We first introduce the axiomatic concept of valuation functions that generalize known concepts of risk measures in mathematical finance to cover most of the existing risk related models in various fields, in particular, behavioral economics and cognitive neuroscience. By applying this concept to Markov processes, we construct valuation maps and develop thereby a unified framework for incorporating risk into Markov decision processes on general spaces. Within the framework, we study mainly two types of infinite-horizon risk-sensitive criteria, discounted and average valuations, and solve the associated optimization problems by value iteration. For the discounted case, we propose a new discount scheme, which is different from the conventional form but consistent with existing literature, while for the average criterion, we state Lyapunov-type stability conditions that generalize known conditions for Markov chains to ensure the existence of solutions to the optimality equation and a geometric convergence rate for the value iteration. Applying a set of valuation functions, called utility-based shortfall, we derive a family of model-free risk-sensitive reinforcement learning algorithms for solving the optimization problems corresponding to risk-sensitive valuations. In addition, we find that when appropriate utility functions are chosen, agents' behaviors express key features of human behavior as predicted by prospect theory, for example, different risk preferences for gains and losses, as well as the shape of subjective probability curves. As a proof of principle for the applicability of the new algorithms, we apply them to two tasks, 1) to quantify human behavior in a sequential investment task and 2) to perform risk control in simulated algorithmic trading of stocks. In the first task, the risk-sensitive variant provides a significantly better fit to the behavioral data and it leads to an interpretation of the subject's responses which is indeed consistent with prospect theory. The analysis of simultaneously measured fMRI signals show a significant correlation of the risk-sensitive temporal difference error with BOLD signal change in the ventral striatum. In the second task, our algorithm outperforms the risk-neutral reinforcement learning algorithm by keeping the trading cost at a substantially low level at the spot when the 2010 Flash Crash happened, and significantly reducing the risk over the whole test period.	en
dc.identifier.uri	urn:nbn:de:kobv:83-opus4-69694
dc.identifier.uri	https://depositonce.tu-berlin.de/handle/11303/4889
dc.identifier.uri	http://dx.doi.org/10.14279/depositonce-4592
dc.language	English	en
dc.language.iso	en	en
dc.rights.uri	https://creativecommons.org/licenses/by/3.0/de/	en
dc.subject.ddc	500 Naturwissenschaften und Mathematik	en
dc.subject.other	Bestärkendes Lernen	de
dc.subject.other	Markow-Entscheidungsprozesse	de
dc.subject.other	Risikomaß	de
dc.subject.other	Risikosteuerung	de
dc.subject.other	Stabilität der nichtlinearen Operatoren	de
dc.subject.other	Markov decision process	en
dc.subject.other	Reinforcement learning	en
dc.subject.other	Risk measure	en
dc.subject.other	Risk-sensitive control	en
dc.subject.other	Stability of nonlinear operators	en
dc.title	Risk sensitive Markov decision processes	en
dc.title.translated	Risikosensitive Markow-Entscheidungsprozesse	de
dc.type	Doctoral Thesis	en
dc.type.version	publishedVersion	en
tub.accessrights.dnb	free	*
tub.affiliation	Fak. 4 Elektrotechnik und Informatik::Inst. Softwaretechnik und Theoretische Informatik	de
tub.affiliation	Fak. 2 Mathematik und Naturwissenschaften::Inst. Mathematik	de
tub.affiliation.faculty	Fak. 4 Elektrotechnik und Informatik	de
tub.affiliation.faculty	Fak. 2 Mathematik und Naturwissenschaften	de
tub.affiliation.institute	Inst. Softwaretechnik und Theoretische Informatik	de
tub.affiliation.institute	Inst. Mathematik	de
tub.identifier.opus4	6969
tub.publisher.universityorinstitution	Technische Universität Berlin	en

Files

Original bundle

Now showing 1 - 1 of 1

Name:: shen_yun.pdf
Size:: 1.83 MB
Format:: Adobe Portable Document Format

Download

Collections

Publications