Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-4700
Main Title: Modeling multiple valuation systems in human decision making
Translated Title: Modellierung paralleler Bewertungssysteme in menschlichen Entscheidungsfindungsprozessen
Author(s): Guo, Rong
Advisor(s): Obermayer, Klaus
Referee(s): Obermayer, Klaus
Blankenburg, Felix
Gläscher, Jan
Granting Institution: Technische Universität Berlin, Fakultät IV - Elektrotechnik und Informatik
Type: Doctoral Thesis
Language: English
Language Code: en
Abstract: Menschliche Entscheidungen basieren wahrscheinlich auf einer Vielzahl von Einflüssen. Traditionelle Algorithmen zum „Reinforcement Learning“, von welchen häufig angenommen wird dass sie diesen Entscheidungen zugrunde liegen, beschränken sich dagegen auf das Erlernen der mittleren zu erwartenden Belohnung und ignorieren dabei andere psychophysiologische Faktoren wie Wahrnehmung oder emotionale Kontrolle, welche menschliche Entscheidungen nachweislich ebenso beeinflussen. Diese Doktorarbeit hat das Ziel, mit Markov-Entscheidungsprozessen und „Reinforcement Learning“-Modellen experimentelle Hypothese in den Neurowissenschaften zu formulieren und zu testen. Sie integriert hierbei zwei dieser Faktoren in Modelle der Entscheidungsfindung und deren angenommenen neuronaler Korrelate: (1) Wie beeinflussen im Konflikt zur Gewinnmaximierung stehende saliente Reize die Schätzung von Belohnung, und (2) wie werden entgangene Gewinne und Verluste - die sogenannten „kontrafaktische Folgen“ - in ökonomische Entscheidungen integriert? Meine Hypothese ist, dass die neurobiologischen Mechanismen der Fehlerkorrektur, welche dem Reinforcement Learning zugrunde liegen, gleichzeitig in mehreren Bewertungssystemen involviert sind. Ich entwarf eine Studie, welche stimulusbasierte und belohnungbasierte Erwartungen und deren Vorhersagefehler dissoziiert, indem diese in einer traditionellen belohnungbasierten Aufgabe unabhängig voneinander manipuliert wurden. Versuchsteilnehmer wogen hierbei die Vorhersagbarkeit von Stimuli gegen die zu erwartende Belohnung ab. Jede Entscheidung der Teilnehmer wurde mittels zweier unabhängiger Rescorla-Wagner-Modelle analysiert, deren Vorhersagen durch eine nichtlinearen Gewichtungsfunktion kombiniert wurden. Eine modellbasierte fMRT-Analyse fand die Vorhersagefehler sowohl für Stimuli als auch für die erwartete Belohnung im ventralen Striatum. Dies deutet darauf hin, dass diese Hirnregion sowohl auf überraschende Wahrnehmungsereignisse, als auch auf unerwartete Belohnung reagiert. Außerdem korrelierten die individuellen Gewichtungsfunktionen mit der Aktivität der Amygdala, was darauf hindeutet, dass diese Gehirnregion möglicherweise zwischen den ursprünglichen stimulusbasierten Entscheidungen, und den späteren von Belohnung getriebenen Entscheidungen abwägt. In einer Studie zu kontrafaktischen Lernsignalen habe ich ein klassisches Q -Learning-Modell durch die Einbeziehung von entgangenen, „kontrafaktischen“ Gewinnen und Verlusten erweitert. Das Modell wurde verwendet, um anhand von Verhaltens- und fMRT-Daten den Einfluß von kontrafaktische Bewertungen auf den Entscheidungsfindungsprozess in einem sequentiellen Investitions-Paradigma zu untersuchen. Die im Modell integrierten kontrafaktischen Lernsignale konnten hierbei das Verhalten der Versuchsteilnehmer und die BOLD-Signale im fMRT, welche mit dem Erwartungswert und der Gewinnvorhersage korrelieren, deutlich besser vorhersagen als das klassische, rein „faktische" Model. Der aus dem erweiterten Modell abgeleitete Erwartungswert moduliert die Aktivität im ventralen medialen präfrontalen Kortex und orbital-frontalen Kortex. Darüber hinaus zeigte das Modell, dass Personen unterschiedliche Empfindlichkeit gegenüber entgangenen Gewinnen und Verlusten haben, welche mit unterscheidbaren neuralen Korrelationen von fiktiven Vorhersagefehlern im ventralen Striatum einhergehen. Zusammengenommen unterstreichen diese beiden Studien die Koexistenz von mehreren Vorhersagefehlern im ventralen Striatum und interpretiert diese als Spezialfälle eines allgemeinen Informations-Vorhersagefehlers. Diese Sichtweise integriert mehrere Bewertungssysteme in eine kohärente Interpretation von menschlichen Entscheidungsfindungsprozessen.
Humans may consider various sources of information when making a decision. Traditional reinforcement-learning algorithms mainly focus on learning the expected reward and ignore other psychophysiological factors that may affect human decisions, such as perceptual interference or emotional regulation. This thesis aims to integrate these other factors into the reinforcement-learning models and addresses two questions: (1) How do conflicting salient stimuli influence reward estimation? (2) How are the counterfactual consequences integrated into economic decision-making? I hypothesize that the neurobiological mechanism of error-correction via reinforcement is commonly utilized by multiple valuation systems. In the study of contextual modulation of prediction-error representations, I designed a value-based choice paradigm that dissociated stimulus-based and reward-based expectations. Participants traded off reward against the predictability of the stimulus location. Behavioral results were analyzed on a trial-by-trial basis using two independent Rescorla-Wagner models, which were then combined by a non-linear weighting function. Using model-based fMRI analysis, I found a co-existence of stimulus and reward prediction errors in the ventral striatum, suggesting that this brain region responded to surprising perceptual events as well as unexpected reward delivery or omission. Furthermore, the amygdala activity correlated with the weighting function, suggesting that it might be negotiating between the initial stimulus saliency based choices and the later reward-driven choices. In the study of valuation with counterfactual learning signals, I extended the Q-learning model by incorporating both counterfactual gains and losses into fictive temporal-difference prediction errors. The model was used to investigate the potential influence of counterfactual valuation using both behavioral and fMRI data from a strategic sequential investment paradigm. The results demonstrated that counterfactual learning signals improved the Q-learning model fit, and this improved model predicted BOLD signal changes that correlated with expected value and reward prediction. Expected values derived from the model robustly modulated activity in the ventral medial prefrontal cortex and orbital frontal cortex. Furthermore, the model showed that individuals had different sensitivity to counterfactual gains and losses, which led to distinct neural correlations with fictive prediction error in the ventral striatum. Together these two studies highlighted the neural correlates of multiple prediction errors in the ventral striatum and re-interpreted them in the form of an information prediction error, thus integrating the multiple valuation systems into a single coherent decision-making framework.
URI: urn:nbn:de:kobv:83-opus4-71650
http://depositonce.tu-berlin.de/handle/11303/4997
http://dx.doi.org/10.14279/depositonce-4700
Exam Date: 27-May-2015
Issue Date: 22-Sep-2015
Date Available: 22-Sep-2015
DDC Class: 000 Informatik, Informationswissenschaft, allgemeine Werke
Subject(s): Menschliche Entscheidungen
Human decision making
Creative Commons License: https://creativecommons.org/licenses/by/3.0/de/
Appears in Collections:Institut für Softwaretechnik und Theoretische Informatik » Publications

Files in This Item:
File Description SizeFormat 
guo_rong.pdf33.8 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons