Loading…
Thumbnail Image

Evaluating and improving robustness in reinforcement learning using self-supervised representation learning

Mann, Khushdeep Singh

Dynamically changing constraints in robotics demand the ability to learn, adapt and reproduce tasks. The robotic workspace is sometimes unpredictable and high dimensional, limiting the scalability of supervised and Reinforcement Learning (RL). In order to tackle these constraints, we undertake the Self-Supervised Learning (SSL) approach for inferring and analyzing the internal dynamics within model-free reinforcement learning algorithms. The thesis investigates the behavior of RL agents under morphological distribution shifts. We train the policies for different RL agents and test transfer the learned models over several perturbed environments. The perturbed environments are being generated by changing the length and mass of agent limbs. Later, we compare the performance of RL policies with and without integrated SSL representations, allowing the agents to adapt across the environments with perturbed parameters. We find that the out-of-distribution performance of self-supervised models is correlated to degradation in agent reward. This work has been accepted at the ’Self-Supervision for Reinforcement Learning Workshop - ICLR2021’ and the short paper is available here.
Robotische Systeme müssen in der Lage sein, sich an Änderungen ihrer Dynamik und wechselnden Umweltbedingungen flexibel anzupassen. Diese Änderungen sind manchmal schwer vorhersagbar und limitieren die Skalierung von Methoden des verstärkenden Lernens (Reinforcement Learning, RL) in der realen Welt. In dieser Arbeit betrachtenund analysieren wir Methoden des selbstüberwachten Lernens (Self-Supervised Learning,SSL), um RL Modelle an ändernde Dynamiken anzupassen.Wir betrachten dabei Veränderungen des Körperplan verschiedener RL Agenten und untersuchen, ob mittels Adaptation per SSL eine Verbesserung des erwarteten Gewinns erreicht werden kann. Während wir eine Korrelation zwischen der Verringerung des Gewinns und des erwarteten Fehlers eines SSL Modells unter einer Dynamikänderung feststellen, finden wir noch keinen ausreichenden Beleg für einen kausalen Zusammenhang. Teil dieser Arbeit erschien bereits als kurzer Beitrag auf dem Self-Supervision for Reinforcement Learning Workshop der ICLR2021 link