Risk sensitive Markov decision processes

dc.contributor.authorShen, Yunen
dc.contributor.grantorTechnische Universität Berlin, Fakultät IV - Elektrotechnik und Informatiken
dc.contributor.refereeOpper, Manfreden
dc.contributor.refereeObermayer, Klausen
dc.contributor.refereeStannat, Wilhelmen
dc.contributor.refereeStettner, Lukaszen
dc.contributor.refereeBorkar, Viveken
dc.date.accepted2015-06-01
dc.date.accessioned2015-11-21T00:54:05Z
dc.date.available2015-08-05T12:00:00Z
dc.date.issued2015-08-05
dc.date.submitted2015-07-30
dc.description.abstractDiese Dissertation untersucht risikosensitive sequenzielle Entscheidungsprobleme in stochastischen Umgebungen. Wir führen zunächst axiomatisch das Konzept von Valuation Function ein, welches Risikomaße aus der Finanzmathematik verallgemeinert. Dieses umfassende Modell deckt ebenfalls risikobezogene Modelle aus einer Vielfalt von anderen Disziplinen ab, insbesondere der Verhaltensökonomie und der kognitiven Neurowissenschaft. Durch eine Erweiterung mit Markov-Prozessen konstruieren wir sogenannte Valuation Maps, welche einen einheitlichen Rahmen für die Berücksichtigung von Risiken in Markov-Entscheidungsprozessen auf allgemeinen Räume erlauben. Hierbei untersuchen wir hauptsächlich zwei Arten von unbegrenzten risikosensitiven Bewertungen: Eine zeitlich diskontiertes und eine zeitlich gemitteltes Kriterium. Die damit verbundenen Optimierungsprobleme werden durch Bewertungsiteration gelöst. Für den diskontierten Fall schlagen wir einen neuen Ansatz vor, welcher von etablierten Paradigmen abweicht, aber dadurch im Einklang mit allgemein akzeptierter Literatur aus der Psychologie und Verhaltensökonomie ist. Um eine geometrische Konvergenzrate der Bewertungsiteration für das zeitlich gemittelte Kriterium zu gewährleisten, geben wir Lyapunov-Typ-Stabilitätsbedingungen an, welche etablierte Bedingungen für Markov-Ketten verallgemeinern. Unter Annahme einer bestimmten Klasse von Bewertungsfunktionen, des sogenannten Utility based Shortfall, leiten wir eine Familie von modellfreien risikosensitiven Reinforcement Learning Algorithmen ab, welche unsere Methode auf praktische Probleme anwendbar macht. Mit geeigneten Risikofunktionen können diese Algorithmen wichtige Eigenschaften des menschlichen Verhaltens aus der Prospect Theory replizieren, z.B.\ unterschiedliche Risikopräferenzen für Gewinne und Verluste, sowie die Form der subjektiven Wahrscheinlichkeitskurven. Zur Demonstration des Prinzips und der neuen Algorithmen wenden wir diese auf zwei Aufgaben an: 1) die Quantifizierung von menschliche Verhalten in einer sequentiellen Investitionsaufgabe und 2) die Simulation von algorithmischen Handel mit Aktien. In der ersten Aufgabe zeigt unsere risikosensitive Variante eine bessere Erklärung der Verhaltensdaten, und erlaubt erstmals eine Interpretation, welche konsistent mit der Prospect Theory ist. Die Analyse der gleichzeitig gemessenen fMRI Signale zeigt eine signifikante Korrelation einiger Modellvariablen mit BOLD Signaländerungen im ventralen Striatum. Auch in der zweiten Aufgabe zeigt unser Algorithmus eine starke Performance. Sowohl das Risiko über den gesamten Testzeitraum, als auch in besonderen Krisensituationen wie dem 2010 Flash Crash, ist deutlich niedriger als bei gewöhnlichen, risikoneutralen Reinforcement Learning Algorithmen.de
dc.description.abstractThis thesis investigates risk-sensitive sequential decision-making problems in an uncertain environment. We first introduce the axiomatic concept of valuation functions that generalize known concepts of risk measures in mathematical finance to cover most of the existing risk related models in various fields, in particular, behavioral economics and cognitive neuroscience. By applying this concept to Markov processes, we construct valuation maps and develop thereby a unified framework for incorporating risk into Markov decision processes on general spaces. Within the framework, we study mainly two types of infinite-horizon risk-sensitive criteria, discounted and average valuations, and solve the associated optimization problems by value iteration. For the discounted case, we propose a new discount scheme, which is different from the conventional form but consistent with existing literature, while for the average criterion, we state Lyapunov-type stability conditions that generalize known conditions for Markov chains to ensure the existence of solutions to the optimality equation and a geometric convergence rate for the value iteration. Applying a set of valuation functions, called utility-based shortfall, we derive a family of model-free risk-sensitive reinforcement learning algorithms for solving the optimization problems corresponding to risk-sensitive valuations. In addition, we find that when appropriate utility functions are chosen, agents' behaviors express key features of human behavior as predicted by prospect theory, for example, different risk preferences for gains and losses, as well as the shape of subjective probability curves. As a proof of principle for the applicability of the new algorithms, we apply them to two tasks, 1) to quantify human behavior in a sequential investment task and 2) to perform risk control in simulated algorithmic trading of stocks. In the first task, the risk-sensitive variant provides a significantly better fit to the behavioral data and it leads to an interpretation of the subject's responses which is indeed consistent with prospect theory. The analysis of simultaneously measured fMRI signals show a significant correlation of the risk-sensitive temporal difference error with BOLD signal change in the ventral striatum. In the second task, our algorithm outperforms the risk-neutral reinforcement learning algorithm by keeping the trading cost at a substantially low level at the spot when the 2010 Flash Crash happened, and significantly reducing the risk over the whole test period.en
dc.identifier.uriurn:nbn:de:kobv:83-opus4-69694
dc.identifier.urihttps://depositonce.tu-berlin.de/handle/11303/4889
dc.identifier.urihttp://dx.doi.org/10.14279/depositonce-4592
dc.languageEnglishen
dc.language.isoenen
dc.rights.urihttps://creativecommons.org/licenses/by/3.0/de/en
dc.subject.ddc500 Naturwissenschaften und Mathematiken
dc.subject.otherBestärkendes Lernende
dc.subject.otherMarkow-Entscheidungsprozessede
dc.subject.otherRisikomaßde
dc.subject.otherRisikosteuerungde
dc.subject.otherStabilität der nichtlinearen Operatorende
dc.subject.otherMarkov decision processen
dc.subject.otherReinforcement learningen
dc.subject.otherRisk measureen
dc.subject.otherRisk-sensitive controlen
dc.subject.otherStability of nonlinear operatorsen
dc.titleRisk sensitive Markov decision processesen
dc.title.translatedRisikosensitive Markow-Entscheidungsprozessede
dc.typeDoctoral Thesisen
dc.type.versionpublishedVersionen
tub.accessrights.dnbfree*
tub.affiliationFak. 4 Elektrotechnik und Informatik::Inst. Softwaretechnik und Theoretische Informatikde
tub.affiliationFak. 2 Mathematik und Naturwissenschaften::Inst. Mathematikde
tub.affiliation.facultyFak. 4 Elektrotechnik und Informatikde
tub.affiliation.facultyFak. 2 Mathematik und Naturwissenschaftende
tub.affiliation.instituteInst. Softwaretechnik und Theoretische Informatikde
tub.affiliation.instituteInst. Mathematikde
tub.identifier.opus46969
tub.publisher.universityorinstitutionTechnische Universität Berlinen

Files

Original bundle
Now showing 1 - 1 of 1
Loading…
Thumbnail Image
Name:
shen_yun.pdf
Size:
1.83 MB
Format:
Adobe Portable Document Format

Collections