Please use this identifier to cite or link to this item:
http://dx.doi.org/10.14279/depositonce-2098
For citation please use:
For citation please use:
Main Title: | Application of Statistical Estimation Theory, Adaptive Sensory Systems and Time Series Processing to Reinforcement Learning |
Translated Title: | Anwendung von statistischer Schätztheorie, adaptiven sensorischen Systemenund Zeitreihen Analyse Methoden auf Reinforcement Learning |
Author(s): | Grünewälder, Steffen |
Advisor(s): | Obermayer, Klaus |
Granting Institution: | Technische Universität Berlin, Fakultät IV - Elektrotechnik und Informatik |
Type: | Doctoral Thesis |
Language: | English |
Language Code: | en |
Abstract: | Diese Arbeit behandelt drei Hauptthemen aus dem Reinforcement Learning (RL): (1) Das klassische Kontroll- und Schätzproblem, (2) das Kontrollproblem für den Fall das kein Zustandsraum gegeben ist, sonder nur sensorische Daten verfügbar sind und (3) ein spezielles nicht-Markov Kontrollproblem, in dem das System lernen muss wichtige Beobachtungen zu speichern. Die drei Themen adressieren Hauptaufgaben einer Robotersteuerung. Bei der Roboternavigation ist typischerweise kein Zustandsraum verfügbar, sondern nur sensorische Daten (Punkt 2). Weiterhin sind in realen Umgebungen sensorische Daten alleine oft nicht ausreichend. Das System muss auch wichtige Beobachtungen oder Aktionen speichern. Ein Haushaltsroboter zum Beispiel wird nicht auf Grund des aktuellen Kamerabildes den Zustand des Hauses'' bestimmen können. Er muss dazu auch alte Beobachtungen und seine Handlungen berücksichtigen (Punkt 3). Basierend auf den sensorischen und den gespeicherten Informationen muss dann eine gute Kontrollstrategie gelernt werden (Punkt 1). Ich gehe alle drei Themen in dem einfachsten Szenario an, in dem die jeweiligen Fragestellungen Sinn machen: Ich benutze MDPs mit endlichen Zustandsräumen für Punkt 1, einen Roboter der mit einer Kamera ausgerüstet ist und eine Markov Umgebung für Punkt 2 und einen POMDP mit endlichem Zustandsraum für Punkt 3. In this thesis three major topics of Reinforcement Learning (RL) are addressed: (1) The classical control and estimation problem, (2) the control task for the case that only sensory information are available and no state space representation and (3) a special non-Markov control problem, where the system needs to memorize important events. These three topics address main parts of a robotic control system. In a robotic setting no state space is available, but only sensory information and a control system needs to be able to deal with these (point 2). Furthermore, in real world setting the sensory information alone are not enough. The system needs to identify and memorize important information and actions. For example, a robot that works in a household and uses a camera for navigation will be unable to derive the state of the house'' out of the current image. He needs to remember what he did and what he observed before (point 3). Based on the sensory processing and possibly memorized information the system needs to derive a reasonable control (point 1). I address all three topics in the simplest setting, where the topic makes sense''. I use finite state space Markov Decision Processes (MDPs) for topic 1, a camera based robotic task where the system is Markovian and the sensory information are sufficient for topic 2 and finite state space Partially Observable Markov Decision Processes (POMDPs) for topic 3. |
URI: | urn:nbn:de:kobv:83-opus-21508 http://depositonce.tu-berlin.de/handle/11303/2395 http://dx.doi.org/10.14279/depositonce-2098 |
Exam Date: | 28-Jan-2009 |
Issue Date: | 20-Feb-2009 |
Date Available: | 20-Feb-2009 |
DDC Class: | 004 Datenverarbeitung; Informatik |
Subject(s): | Optimale erwartungstreue Value Schätzung Reinforcement Learning Roboter Steuerung Vanishing Gradient Optimal Unbiased Value Estimator Reinforcement Learning Robotic Control Vanishing Gradient |
License: | http://rightsstatements.org/vocab/InC/1.0/ |
Appears in Collections: | Inst. Softwaretechnik und Theoretische Informatik » Publications |
Files in This Item:
Items in DepositOnce are protected by copyright, with all rights reserved, unless otherwise indicated.