New importance sampling based algorithms for compensating dataset shifts

dc.contributor.advisorGarcke, Jochen
dc.contributor.authorVanck, Thomas
dc.contributor.grantorTechnische Universität Berlinen
dc.contributor.refereeGarcke, Jochen
dc.contributor.refereeSchneider, Reinhold
dc.date.accepted2016-05-23
dc.date.accessioned2016-06-20T10:25:57Z
dc.date.available2016-06-20T10:25:57Z
dc.date.issued2016
dc.description.abstractUsually, the classic machine learning considers two datasets X1,X2 which have been sampled i.i.d. from distributions p1 and p2. There, it is assumed that p1 = p2. Due to this assumption, models that have been inferred on X1 generalize well on X2, that means that the quality of prediction and expected error are approximately the same. In a shifted dataset setting, however, it is assumed that the distributions are not equal, i.e. p1 != p2. The reason for this dissimilarity is, normally, due to non-observable transformations of the data generating process. This altered situation violates the standard machine learning assumption which implies that a model learned on X1 cannot be applied to the prediction of X2. One way to compensate these dataset shifts is the application of ”Instance Based Methods”. Roughly said: For improving the prediction of X2 data, data from X1 is added to the model inference process which is very similar to X2. Every datapoint or instance from X1 gets a weight assigned that indicates how similar it is to the X2 data. These weights, then, indicate how much influence a datapoint from X1 should get for the inference of the prediction model for X2. This thesis presents two new such instance base methods, which yield better results than current state-of-the-art methods.en
dc.description.abstractBeim klassischen Maschinen-Lernen werden zwei Datensätze X1,X2 betrachtet, die beide unabhängig und identisch verteilt von Verteilungen p1 bzw. p2 gezogen wurden. Dabei wird angenommen, dass p1 = p2 ist. Aufgrund dieser Annahme generalisieren Modelle die auf X1 gelernt wurden sehr gut auf X2. Das bedeutet, dass die Vorhersagequalität und der erwartete Fehler annähernd gleich sind. Bei der Annahme einer Datenverschiebung sind die Verteilungen jedoch i.d.R. ungleich, d.h. p1 != p2. Die Ursache dieses Unterschieds ist normalerweise eine nicht beobachtbare Transformation des datengenerierenden Prozesses. Diese Dynamik verletzt die die Annahme des klassischen Maschinen-Lernens was dazu führt, dass ein Modell, das auf X1 gelernt wurde, nicht mehr ohne weiteres zur Vorhersage von X2 verwendet werden kann. Eine Möglichkeit zur Kompensation solcher Datenverschiebungen ist die Anwendung von Instanz-basierten Verfahren. Vereinfacht bedeutet das: Um die Vorhersage von X2 Daten zu verbessern, werden zusätzlich Daten von X1 in der Modellherleitung verwendet, die ähnlich zu Daten aus X2 sind. Jeder Datenpunkt, oder Instanz, von X1 erhält einen spezifischen Gewichtsfaktor, der die Ähnlichkeit zu den X2 Daten angibt. Diese Gewichte geben an, wie viel Einfluss jeder X1-Datenpunkt bei der Herleitung eines Vorhersagemodells von X2 erhält. Diese Arbeit führt zwei neue solcher Instanz basierten Methoden ein, welche bessere Resultate liefern als aktuelle Methoden.en
dc.identifier.urihttps://depositonce.tu-berlin.de/handle/11303/5559
dc.identifier.urihttp://dx.doi.org/10.14279/depositonce-5188
dc.language.isoenen
dc.rights.urihttp://rightsstatements.org/vocab/InC/1.0/en
dc.subject.ddc519 Wahrscheinlichkeiten, angewandte Mathematikde
dc.subject.othercovariate shiften
dc.subject.otherinductive transfer learningen
dc.subject.otherweighted kernel ridge regressionen
dc.subject.othertransfer learningen
dc.subject.otherhyperbolic crossen
dc.subject.otherFourier seriesen
dc.subject.otherKovariatenverschiebungde
dc.subject.otherinduktives Transferlernende
dc.subject.othergewichtete Kernel Ridge Regressionde
dc.subject.otherTransferlernende
dc.subject.otherhyperbolisches Kreuzde
dc.subject.otherFourier Reihende
dc.titleNew importance sampling based algorithms for compensating dataset shiftsen
dc.title.translatedNeue Importance Sampling basierte Algorithmen zu Kompensation von Verschiebungen innerhalb von Datende
dc.typeDoctoral Thesisen
dc.type.versionacceptedVersionen
tub.accessrights.dnbfreeen
tub.affiliationFak. 2 Mathematik und Naturwissenschaften::Inst. Mathematikde
tub.affiliation.facultyFak. 2 Mathematik und Naturwissenschaftende
tub.affiliation.instituteInst. Mathematikde
tub.publisher.universityorinstitutionTechnische Universität Berlinen

Files

Original bundle
Now showing 1 - 1 of 1
Loading…
Thumbnail Image
Name:
vanck_thomas.pdf
Size:
6.75 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
5.75 KB
Format:
Item-specific license agreed upon to submission
Description:

Collections