Loading…
Towards model-agnostic active learning in regression via identification of problem-intrinsic properties
Panknin, Danny
The recent advances of machine learning methods in scientific domains such as chemistry and physics brought up data intensive inference problems, where the acquisition of labeled training data is expensive as these labels typically stem from computationally involved numeric simulations or even laboratory experiments. For example, solving the Schrödinger equation for a studied molecular system at a high level of accuracy to obtain a single label requires hours to days of computation time. The data from such real-world applications often exhibits inhomogeneities that are not addressed by standard machine learning models and naive training data selection techniques. While such models will eventually perform reasonably accurate at large enough training sizes, it is possible to achieve the same level of performance at a considerably smaller training size when adjusting to the true structural properties of the learning problem in both regards, the design of the model and the construction of the training dataset. For some complex learning problems, these sample savings are essential to render the application of machine learning possible in first place.
The process of guiding the construction of the training dataset is known as active learning. Whenever we are confronted with a new learning problem where domain knowledge is scarce, active learning must be conducted in a robust way: On the one hand, the data selection criterion should work under mild regularity assumptions on the problem, since we else risk to encounter a training data quality that is poorer than the quality of a naive construction under violation of the assumption of the active learning approach. On the other hand, the acquired training dataset should remain meaningful under model change in hindsight, since the state-of-the-art for new learning problems is evolving rapidly. The existing literature on robust active learning approaches for regression is centered around uninformed selection criteria, which means that they ignore label information even though available in this semi-supervised task. Their neglect of label information makes them inherently model-agnostic and almost free of assumptions. While these approaches are beneficial in the small-sample regime, their advantage over naive training data constructions diminishes with growing training size.
The ultimate goal of this thesis is to design an active learning solution that is robust, but also informative so that it is able to maintain asymptotic superiority over naive selection techniques. To achieve this, we first define properties of active learning schemes to formalize our goal. These properties already narrow down the possible designs that are compatible with our purpose. Then we derive a solution via the local polynomial smoothing model class, which will be given in terms of the asymptotically optimal training density in closed-form. This density reveals the influence of the local structural complexity of the target function, the local noise level and the test relevance on the training demand in a model-agnostic way.
Deploying a mixture of Gaussian processes model, we are then able to adjust for the inhomogeneous structure of data from quantum chemistry and physics regarding both, the model and the training data choice.
Der aktuelle Erfolg von Methoden des maschinellen Lernens in neuen Bereichen der Naturwissenschaften wie Chemie und Physik hat Daten-intensive Inferenzprobleme hervorgebracht, für die die Beschaffung von gelabelten Trainingsdaten teuer ist, da diese typischerweise aus aufwendigen numerischen Simulationen oder Laborexperimenten hervorgehen. Zum Beispiel benötigt die Lösung der Schrödinger Gleichung mit hoher Genauigkeit für ein betrachtetes Molekül Stunden bis hin zu Tagen, um ein einzelnes Label zu bestimmen. Die Daten aus solchen Anwendungen der realen Welt weisen oft Inhomogenitäten auf, welche von Standardmodellen des maschinellen Lernens und naiven Datenselektionsmethoden nicht beachtet werden. Obwohl diese Modelle mit einer hinreichenden Menge von Trainingsdaten eine akzeptable Performanz erreichen können, ist es möglich, eine gleichwertige Genauigkeit mit deutlich weniger Trainingsdaten zu erreichen, indem man sowohl das Modell als auch die Auswahl der Trainingsdaten an die strukturellen Eigenschaften des Lernproblems anpasst. Für besonders komplexe Lernprobleme können diese Einsparungen essenziell sein, um die Anwendung von maschinellem Lernen überhaupt zu ermöglichen.
Die gezielte Auswahl von Trainingsdaten wird als aktives Lernen bezeichnet. Wenn wir erstmalig mit einem neuen Lernproblem konfrontiert werden, für das kaum Domainwissen vorhanden ist, muss aktives Lernen in einer robusten Art und Weise durchgeführt werden: Zum Einen sollte das Datenauswahlkriterium wenig Annahmen über die Regularität des Problems treffen, da wir sonst unter Verletzung dieser Annahmen riskieren, einen Datensatz von schlechterer Qualität zu erzeugen als es der Fall mit naiver Konstruktion gewesen wäre. Zum Anderen sollte der erzeugte Datensatz flexibel bezüglich der nachträglichen Modellauswahl sein, da für diese Art von Lernproblem sich der Stand der Technik schnell ändert. Die vorhandene Literatur zu robusten Methoden des aktiven Lernens für Regressionsprobleme befasst sich hauptsächlich mit uninformierten Auswahlkriterien, was bedeutet, dass sie trotz vorhandener Labels in diesem halb-überwachten Lernszenario selbige nicht beachten. Durch diese Nichtbeachtung der Labels sind diese Methoden Modell-agnostisch und fast frei von irgendwelchen Annahmen. Während diese Methoden speziell für kleine Datenmengen mit einer gesteigerten Performanz einhergehen, so verschwindet dieser Vorteil gegenüber naiven Konstruktionen mit wachsender Menge an Trainingsdaten gänzlich.
Das Ziel dieser Arbeit ist es, eine Methode des aktiven Lernens herauszuarbeiten, die nicht nur robust, sondern auch informiert ist, um asymptotisch eine gesteigerte Datenqualität gegenüber naiven Konstruktionen aufrechtzuerhalten. In Hinblick auf dieses Ziel definieren wir zunächst Eigenschaften von Methoden des aktiven Lernens, um das Ziel theoretisch zu formalisieren. Diese Eigenschaften schränken den Lösungsraum an Methoden des aktiven Lernens, die mit unserem Ziel vereinbar sind, bereits deutlich ein. Basierend auf der Modellklasse der lokalen polynomiellen Glättungen arbeiten wir dann eine Lösung heraus, die wir in Form der Wahrscheinlichkeitsdichte der asymptotisch optimalen Trainingsverteilung erhalten. Diese Dichte offenbart den Einfluss von der lokalen Komplexität der Zielfunktion, dem lokalen Grad an Rauschen und die Testrelevanz auf den Bedarf an Trainingsdaten auf eine Modell-agnostische Weise.
Die Verwendung einer Mischung von Gaußprozessen als Modell ermöglicht uns letztendlich die Anpassung an die strukturellen Inhomogenitäten von Lernproblemen aus dem Bereich der Quantenchemie und der Physik hinsichtlich Modell und der Auswahl der Trainingsdaten.