New importance sampling based algorithms for compensating dataset shifts

Vanck, Thomas

New importance sampling based algorithms for compensating dataset shifts

dc.contributor.advisor	Garcke, Jochen
dc.contributor.author	Vanck, Thomas
dc.contributor.grantor	Technische Universität Berlin	en
dc.contributor.referee	Garcke, Jochen
dc.contributor.referee	Schneider, Reinhold
dc.date.accepted	2016-05-23
dc.date.accessioned	2016-06-20T10:25:57Z
dc.date.available	2016-06-20T10:25:57Z
dc.date.issued	2016
dc.description.abstract	Usually, the classic machine learning considers two datasets X1,X2 which have been sampled i.i.d. from distributions p1 and p2. There, it is assumed that p1 = p2. Due to this assumption, models that have been inferred on X1 generalize well on X2, that means that the quality of prediction and expected error are approximately the same. In a shifted dataset setting, however, it is assumed that the distributions are not equal, i.e. p1 != p2. The reason for this dissimilarity is, normally, due to non-observable transformations of the data generating process. This altered situation violates the standard machine learning assumption which implies that a model learned on X1 cannot be applied to the prediction of X2. One way to compensate these dataset shifts is the application of ”Instance Based Methods”. Roughly said: For improving the prediction of X2 data, data from X1 is added to the model inference process which is very similar to X2. Every datapoint or instance from X1 gets a weight assigned that indicates how similar it is to the X2 data. These weights, then, indicate how much influence a datapoint from X1 should get for the inference of the prediction model for X2. This thesis presents two new such instance base methods, which yield better results than current state-of-the-art methods.	en
dc.description.abstract	Beim klassischen Maschinen-Lernen werden zwei Datensätze X1,X2 betrachtet, die beide unabhängig und identisch verteilt von Verteilungen p1 bzw. p2 gezogen wurden. Dabei wird angenommen, dass p1 = p2 ist. Aufgrund dieser Annahme generalisieren Modelle die auf X1 gelernt wurden sehr gut auf X2. Das bedeutet, dass die Vorhersagequalität und der erwartete Fehler annähernd gleich sind. Bei der Annahme einer Datenverschiebung sind die Verteilungen jedoch i.d.R. ungleich, d.h. p1 != p2. Die Ursache dieses Unterschieds ist normalerweise eine nicht beobachtbare Transformation des datengenerierenden Prozesses. Diese Dynamik verletzt die die Annahme des klassischen Maschinen-Lernens was dazu führt, dass ein Modell, das auf X1 gelernt wurde, nicht mehr ohne weiteres zur Vorhersage von X2 verwendet werden kann. Eine Möglichkeit zur Kompensation solcher Datenverschiebungen ist die Anwendung von Instanz-basierten Verfahren. Vereinfacht bedeutet das: Um die Vorhersage von X2 Daten zu verbessern, werden zusätzlich Daten von X1 in der Modellherleitung verwendet, die ähnlich zu Daten aus X2 sind. Jeder Datenpunkt, oder Instanz, von X1 erhält einen spezifischen Gewichtsfaktor, der die Ähnlichkeit zu den X2 Daten angibt. Diese Gewichte geben an, wie viel Einfluss jeder X1-Datenpunkt bei der Herleitung eines Vorhersagemodells von X2 erhält. Diese Arbeit führt zwei neue solcher Instanz basierten Methoden ein, welche bessere Resultate liefern als aktuelle Methoden.	en
dc.identifier.uri	https://depositonce.tu-berlin.de/handle/11303/5559
dc.identifier.uri	http://dx.doi.org/10.14279/depositonce-5188
dc.language.iso	en	en
dc.rights.uri	http://rightsstatements.org/vocab/InC/1.0/	en
dc.subject.ddc	519 Wahrscheinlichkeiten, angewandte Mathematik	de
dc.subject.other	covariate shift	en
dc.subject.other	inductive transfer learning	en
dc.subject.other	weighted kernel ridge regression	en
dc.subject.other	transfer learning	en
dc.subject.other	hyperbolic cross	en
dc.subject.other	Fourier series	en
dc.subject.other	Kovariatenverschiebung	de
dc.subject.other	induktives Transferlernen	de
dc.subject.other	gewichtete Kernel Ridge Regression	de
dc.subject.other	Transferlernen	de
dc.subject.other	hyperbolisches Kreuz	de
dc.subject.other	Fourier Reihen	de
dc.title	New importance sampling based algorithms for compensating dataset shifts	en
dc.title.translated	Neue Importance Sampling basierte Algorithmen zu Kompensation von Verschiebungen innerhalb von Daten	de
dc.type	Doctoral Thesis	en
dc.type.version	acceptedVersion	en
tub.accessrights.dnb	free	en
tub.affiliation	Fak. 2 Mathematik und Naturwissenschaften::Inst. Mathematik	de
tub.affiliation.faculty	Fak. 2 Mathematik und Naturwissenschaften	de
tub.affiliation.institute	Inst. Mathematik	de
tub.publisher.universityorinstitution	Technische Universität Berlin	en

Files

Original bundle

Now showing 1 - 1 of 1

Name:: vanck_thomas.pdf
Size:: 6.75 MB
Format:: Adobe Portable Document Format
Description:

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 5.75 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Publications