Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-6054
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorBrock, Oliver-
dc.contributor.authorHöfer, Sebastian-
dc.date.accessioned2017-08-03T13:25:53Z-
dc.date.available2017-08-03T13:25:53Z-
dc.date.issued2017-
dc.identifier.urihttp://depositonce.tu-berlin.de/handle/11303/6555-
dc.identifier.urihttp://dx.doi.org/10.14279/depositonce-6054-
dc.description.abstractReinforcement learning is a computational framework that enables machines to learn from trial-and-error interaction with the environment. In recent years, reinforcement learning has been successfully applied to a wide variety of problem domains, including robotics. However, the success of the reinforcement learning applications in robotics relies on a variety of assumptions, such as the availability of large amounts of training data, highly accurate models of the robot and the environment as well as prior knowledge about the task. In this thesis, we study several of these assumptions and investigate how to generalize them. To that end, we look at these assumptions from different angles. On the one hand, we study them in two concrete applications of reinforcement learning in robotics: ball catching and learning to manipulate articulated objects. On the other hand, we develop an abstract explanatory framework that relates the assumptions to the decomposability of problems and solutions. Taken together, the concrete case studies and the abstract explanatory framework enable us to make suggestions on how to relax the previously stated assumptions and how to design more effective solutions to robot reinforcement learning problems. The first case study deals with the problem of ball catching: how to run most effectively to catch a projectile, such as a baseball, that is flying in the air for a long period of time. The question about the best solution to the ball catching problem has been subject to intense scientific debate for almost 50 years. It turns out that this scientific debate is not focused on the ball catching problem alone but revolves around the research question whether heuristic or optimization-based approaches are better suited for solving such problems in general. In this thesis, we study the ball catching problem as an instance of the heuristics-vs.-optimality debate. We study two types of approaches to the ball catching problem, one commonly considered as heuristic and one based on optimization, and investigate their properties using both a theoretical analysis and a set of simulation experiments. This investigation shows that neither of the two types of approaches can be regarded as superior with respect to the ball catching problem, as each of them makes different assumptions and thus is better suited for different variations of the problem. This result raises the question about the key difference between these two types of approaches to ball catching. We show that optimality is not a relevant criterion for distinguishing between them: we demonstrate that the approach to ball catching that is commonly considered heuristic can be phrased as optimal under task-general assumptions. This motivates our search for a more adequate explanatory framework for distinguishing between these solutions, and we discuss whether decomposability offers such a framework at the end of the thesis. The second study deals with the problem of learning to manipulate articulated objects. Articulated objects are composed of rigid bodies that are connected by joints, such as doors, laptops and drawers. In this thesis, we address the questions of how to discover the kinematic structure of unknown articulated objects, how to learn simple push and pull actions for actuating the detected joints, and how to identify the functional dependencies between joints, for example locking mechanisms. The solutions to these questions require reasoning about object parts and their relationships. We therefore resort to a learning paradigm that is well-suited for performing such reasoning, relational reinforcement learning. In order to tightly integrate relational learning with perceptual and motor skills required to operate manipulated objects, we propose two novel learning approaches: task-sensitive learning of relational forward models, and an approach for tight coupling of relational forward model and action parameter learning. We demonstrate the effectiveness of these approaches in simulated and real-world robotic manipulation experiments. In the last part of this thesis, we generalize the lessons learned from the two case studies to robot reinforcement learning and decision making problems. To that end, we introduce the spectrum of decomposability as an explanatory framework for characterizing problems and solutions in decision making. This framework regards decomposability as a varying property on a spectrum and suggests that the decomposition of a problem has a significant impact on the ability to find an adequate solution. From that, we conclude that the inability to find an effective solution can either result from a premature, inadequate decomposition of the problem, or from approaching a non-decomposable problem by fully decomposing it. To support our view, we revisit the two case studies in the light of decomposability and provide additional evidence from the literature in artificial intelligence, cognitive science and neuroscience. We conclude this thesis by making suggestions on how to address the assumptions required to successfully apply reinforcement learning in robotics.en
dc.description.abstractDas bestärkende Lernen ist eine Methode, die es Maschinen ermöglicht, durch Interaktion mit der Umwelt zu lernen. Große Fortschritte auf diesem Gebiet haben es in den letzten Jahren ermöglicht, immer neue Anwendungen mit bestärkendem Lernen zu lösen. Eines der wichtigsten Anwendungsgebiete ist die Robotik. Jedoch hängt der Erfolg von bestärkendem Lernen in diesem Bereich stark davon ab, dass gewisse Vorannahmen erfüllt sind, zum Beispiel über das Vorhandensein großer Mengen von Trainingdaten, genauer Modelle des Roboters und der Umwelt sowie von Vorwissen über das zu lösende Problem. In dieser Dissertation untersuchen wir verschiedene dieser Annahmen und erörtern, wie sie verallgemeinert werden können. Dazu nähern wir uns diesen Annahmen von verschiedenen Seiten an. Zum einen untersuchen wir sie in zwei konkreten Anwendungen des bestärkenden Lernens in der Robotik: dem Fangen eines Balles sowie der Manipulation artikulierter Objekte. Andererseits entwickeln wir eine abstraktes Erklärungsmodell, das die zuvor genannten Annahmen in Beziehung zur Zerlegbarkeit von Problemen und von Lösungen stellt. Zusammen ermöglichen uns die konkreten Anwendungen und das abstrakte Erklärungsmodell eine Reihe von Vorschlägen zu erarbeiten, um die betrachteten Annahmen zu verallgemeinern und Lösungen für Probleme des bestärkenden Lernens in der Robotik zu finden. Die erste Anwendung beschäftigt sich mit dem Ball-Fang-Problem. Es betrachtet die Fragestellung, wie ein Roboter laufen muss, um einen Ball zu fangen, der auf einer langen Strecke durch die Luft fliegt. Tatsächlich ist die Frage nach der besten Lösung für dieses Problem seit fast 50 Jahren Thema intensiver wissenschaftlicher Auseinandersetzung. Diese Auseinandersetzung beschäftigt sich allerdings nicht ausschließlich mit dem Ball-Fang-Problem, sondern widmet sich vor allem der abstrakten Fragestellung, ob heuristische Methoden oder Optimierungsmethoden der im Allgemeinen bessere Ansatz sind, um Probleme dieser Art zu lösen. In dieser Arbeit untersuchen wir das Ball-Fang-Problem als Instanz dieser Debatte um Heuristiken vs. Optimalität. Dazu betrachten wir zwei Klassen von Methoden, eine als heuristisch angesehene und eine auf Optimierung basierende, und untersuchen ihre Eigenschaften in Theorie sowie in Simulationsexperimenten. Unsere Analyze zeigt, dass keine der beiden Klassen von Methoden als überlegen für die Lösung des Ball-Fang-Problems erachtet werden kann. Der Grund ist, dass jede andere Vorannahmen trifft und daher für andere Varianten des Ball-Fang-Problems besser geeignet ist. Dieses Resultat wirft die Frage auf, was der Hauptunterschied zwischen den Methodenklassen ist. Wir zeigen, dass Optimalität kein geeignetes Kriterium ist, um die Methodenklassen zu unterscheiden: Wir demonstrieren, dass die als heuristisch angesehene Methode als optimal bezüglich aufgabenunspezifischer Annahmen betrachtet werden kann. Dies motiviert unsere Suche nach einem besseren Erklärungsmodell, das die Unterschiede zwischen den Methoden klar aufzeigt. Wir diskutieren am Ende der Dissertation, inwiefern das Konzept der Zerlegbarkeit dafür geeignet ist. In der zweiten Anwendung beschäftigen wir uns mit dem Problem zu erlernen, wie man artikulierte Objekte manipuliert. Artikulierte Objekte bestehen aus mehreren Bestandteilen, die durch Gelenke miteinander gekoppelt sind. Beispiele für solche Objekte sind Türen, Schubladen oder Laptops. In dieser Arbeit untersuchen wir die Fragestellungen, wie der Roboter die kinematische Struktur artikulierter Objekte entdecken kann, wie er geeignete Schiebe- und Ziehbewegungen erlernen kann, und wie er funktionale Abhängigkeiten, zum Beispiel Schließmechanismen, erkennen kann. Die Lösung dieser Aufgaben erfordert die Fähigkeit, dass der Roboter aus seiner Erfahrung Schlüsse über die Bestandteile der Objekte und deren Verhältnis zueinander zieht. Daher greifen wir auf ein Lernparadigma zurück, welches diese Art des Schlussfolgerns ermöglicht, das relationale Lernen. Um das relationale Lernen eng mit den Wahrnehmungs- und motorischen Fähigkeiten des Roboters zu verzahnen, entwickeln wir zwei neuartige Lernmethoden: eine Methode zum aufgabensensitiven Lernen relationaler Vorwärtsmodelle sowie eine Methode zum gekoppelten Lernen von Aktionsparametern und relationalen Vorwärtsmodellen. Wir demonstrieren die Effektivität dieser Ansätze in Simulationsexperimenten sowie in einem Roboterexperiment in einer realistischen Umgebung. Im letzten Teil dieser Arbeit übertragen wir unsere aus den beiden Anwendungen gewonnenen Erkenntnisse auf das bestärkende Lernen und Entscheidungsprobleme im Allgemeinen. Dazu führen wir das Spektrum der Zerlegbarkeit als ein Erklärungsmodell ein, um Entscheidungsprobleme und Lösungen von Problemen zu charakterisieren. Dieses Erklärungsmodell betrachtet Zerlegbarkeit als eine kontinuierlich variierende Eigenschaft auf einem Spektrum und suggeriert, dass die Zerlegung eines Problems einen signifikanten Einfluss auf seine Lösbarkeit hat. Wir folgern daraus, dass die Unfähigkeit eine geeignete Lösung für ein Problem zu finden eine von zwei Ursachen haben kann: entweder die voreilige Zerlegung des Problems, oder die vollständige Zerlegung eines nicht zerlegbaren Problems. Um diese Auffassung zu stützen, betrachten wir die zwei zuvor vorgestellten Robotikanwendungen des bestärkenden Lernens und führen weitere Anhaltspunkte aus den Bereichen der künstlichen Intelligenz, der Kognitionswissenschaften und der Neurowissenschaft an. Wir beschließen die Arbeit damit, dass wir aus den gewonnenen Erkenntnisse Vorschläge erarbeiten, wie die notwendigen Problemannahmen zur Anwendung des bestärkenden Lernens in der Robotik verallgemeinert werden können.de
dc.language.isoenen
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/en
dc.subject.ddcDDC::000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::000 Informatik, Informationswissenschaft, allgemeine Werkeen
dc.subject.othermanipulationen
dc.subject.otherarticulated objectsen
dc.subject.otherball catchingen
dc.subject.otherdecomposabilityen
dc.subject.otherrobot reinforcement learningen
dc.subject.otherrelational reinforcement learningen
dc.subject.otherartikulierte Objektede
dc.subject.otherBallfangende
dc.subject.otherZerlegbarkeitde
dc.subject.otherRobotikde
dc.subject.otherbestärkendes Lernende
dc.titleOn decomposability in robot reinforcement learningen
dc.typeDoctoral Thesisen
tub.accessrights.dnbfreeen
tub.publisher.universityorinstitutionTechnische Universität Berlinen
dc.contributor.grantorTechnische Universität Berlinen
dc.contributor.refereeBrock, Oliver-
dc.contributor.refereeKaelbling, Leslie Pack-
dc.contributor.refereeKersting, Kristian-
dc.date.accepted2017-06-28-
dc.title.translatedÜber Zerlegbarkeit von bestärkendem Lernen in der Robotikde
dc.type.versionacceptedVersionen
Appears in Collections:Fachgebiet Robotics » Publications

Files in This Item:
File Description SizeFormat 
hoefer_sebastian.pdf10.85 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons