Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-5188
Main Title: New importance sampling based algorithms for compensating dataset shifts
Translated Title: Neue Importance Sampling basierte Algorithmen zu Kompensation von Verschiebungen innerhalb von Daten
Author(s): Vanck, Thomas
Advisor(s): Garcke, Jochen
Referee(s): Garcke, Jochen
Schneider, Reinhold
Granting Institution: Technische Universität Berlin
Type: Doctoral Thesis
Language Code: en
Abstract: Usually, the classic machine learning considers two datasets X1,X2 which have been sampled i.i.d. from distributions p1 and p2. There, it is assumed that p1 = p2. Due to this assumption, models that have been inferred on X1 generalize well on X2, that means that the quality of prediction and expected error are approximately the same. In a shifted dataset setting, however, it is assumed that the distributions are not equal, i.e. p1 != p2. The reason for this dissimilarity is, normally, due to non-observable transformations of the data generating process. This altered situation violates the standard machine learning assumption which implies that a model learned on X1 cannot be applied to the prediction of X2. One way to compensate these dataset shifts is the application of ”Instance Based Methods”. Roughly said: For improving the prediction of X2 data, data from X1 is added to the model inference process which is very similar to X2. Every datapoint or instance from X1 gets a weight assigned that indicates how similar it is to the X2 data. These weights, then, indicate how much influence a datapoint from X1 should get for the inference of the prediction model for X2. This thesis presents two new such instance base methods, which yield better results than current state-of-the-art methods.
Beim klassischen Maschinen-Lernen werden zwei Datensätze X1,X2 betrachtet, die beide unabhängig und identisch verteilt von Verteilungen p1 bzw. p2 gezogen wurden. Dabei wird angenommen, dass p1 = p2 ist. Aufgrund dieser Annahme generalisieren Modelle die auf X1 gelernt wurden sehr gut auf X2. Das bedeutet, dass die Vorhersagequalität und der erwartete Fehler annähernd gleich sind. Bei der Annahme einer Datenverschiebung sind die Verteilungen jedoch i.d.R. ungleich, d.h. p1 != p2. Die Ursache dieses Unterschieds ist normalerweise eine nicht beobachtbare Transformation des datengenerierenden Prozesses. Diese Dynamik verletzt die die Annahme des klassischen Maschinen-Lernens was dazu führt, dass ein Modell, das auf X1 gelernt wurde, nicht mehr ohne weiteres zur Vorhersage von X2 verwendet werden kann. Eine Möglichkeit zur Kompensation solcher Datenverschiebungen ist die Anwendung von Instanz-basierten Verfahren. Vereinfacht bedeutet das: Um die Vorhersage von X2 Daten zu verbessern, werden zusätzlich Daten von X1 in der Modellherleitung verwendet, die ähnlich zu Daten aus X2 sind. Jeder Datenpunkt, oder Instanz, von X1 erhält einen spezifischen Gewichtsfaktor, der die Ähnlichkeit zu den X2 Daten angibt. Diese Gewichte geben an, wie viel Einfluss jeder X1-Datenpunkt bei der Herleitung eines Vorhersagemodells von X2 erhält. Diese Arbeit führt zwei neue solcher Instanz basierten Methoden ein, welche bessere Resultate liefern als aktuelle Methoden.
URI: http://depositonce.tu-berlin.de/handle/11303/5559
http://dx.doi.org/10.14279/depositonce-5188
Exam Date: 23-May-2016
Issue Date: 2016
Date Available: 20-Jun-2016
DDC Class: DDC::500 Naturwissenschaften und Mathematik::510 Mathematik::519 Wahrscheinlichkeiten, angewandte Mathematik
Subject(s): covariate shift
inductive transfer learning
weighted kernel ridge regression
transfer learning
hyperbolic cross
Fourier series
Kovariatenverschiebung
induktives Transferlernen
gewichtete Kernel Ridge Regression
Transferlernen
hyperbolisches Kreuz
Fourier Reihen
Usage rights: Terms of German Copyright Law
Appears in Collections:Technische Universität Berlin » Fakultäten & Zentralinstitute » Fakultät 2 Mathematik und Naturwissenschaften » Institut für Mathematik » Publications

Files in This Item:
File Description SizeFormat 
vanck_thomas.pdf6.91 MBAdobe PDFThumbnail
View/Open


Items in DepositOnce are protected by copyright, with all rights reserved, unless otherwise indicated.