Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-8528
Main Title: Efficient learning machines
Subtitle: from kernel methods to deep learning
Translated Title: Effiziente Lernmaschinen
Translated Subtitle: von Kernmethoden zu tiefem Lernen
Author(s): Alber, Maximilian
Advisor(s): Müller, Klaus-Robert
Referee(s): Müller, Klaus-Robert
Sha, Fei
Markl, Volker
Granting Institution: Technische Universität Berlin
Type: Doctoral Thesis
Language Code: en
Abstract: Science is in a constant state of evolution. There is a permanent quest for advancing knowledge in the light of changing capabilities and matters. The field of Machine Learning itself is shaped by the ever-increasing amount of data and computing power, creating new challenges as well as paving the way for new opportunities. This thesis is on adapting learning-based machines to these emerging prospects. In particular, subject of this work are three distinct research topics with the underlying drivers: the wish to reliably predict (a) given a large number of classes, (b) given a large number of samples, and (c) to understand complex algorithms and data models. Each reflects a unique need for an efficient proposition and we contribute by creating approaches located in the intersection of algorithm and software development in order to tackle the following problem statements. The first contribution researches multi-class classification with large label spaces and the effective prediction method support vector machines. Recent work suggests so-called all-in-one support vector machine formulations outperform one-vs.-rest formulations, but it is a challenge to leverage their potential for settings with a large number of classes. We approach this problem by proposing for two all-in-one machines exact optimization algorithms that distribute computation and model parameters evenly on computing instances. This allows us to perform an analysis on text data with a large label spaces and to confirm the favorable performance of all-in-one formulations. Other cornerstones of Machine Learning are kernel methods and neural networks. The ever-growing data collections expose a scaling issue of kernel methods with respect to a large number of data points. The predominant approach to alleviate this is an approximation based on random features. In our second contribution we argue that this randomness renders the method inefficient and dissect the effect of these data- and task-agnostic learning bases by means of an empirical study. Viewing approximated kernel machines as neural networks and a novel, efficient optimization approach enable us to shed light onto the interplay of these two important learning paradigms. Our last contribution aims to facilitate a better understanding of the predictions of deep neural networks. These data models have shown impressive results in a wide range of applications and are an invaluable tool. Yet, compared to many other Machine Learning techniques, their functioning is hard to understand and to retrace. Among many proposed methods, propagation-based prediction analysis has shown convincing results and is a promising candidate to address this shortcoming. A drawback is the lack of efficient software for many methods and emerging network structures. We contribute to this by developing the software library iNNvestigate, whose features are an intuitive interface and a modular design — enabling non-expert users access to these methods as well as accelerating research on complex neural networks.
Die Wissenschaften befinden sich in einer fortwährenden Evolution, welche von den sich permanent ändernden Fähigkeiten und Gegebenheiten getrieben ist. Das Feld des maschinellen Lernens selbst ist durch ständig wachsende Datenmengen und Rechenleistungen geprägt, was sowohl neue Herausforderungen schafft als auch den Weg für neue Lösungen ebnet. Diese Arbeit beschäftigt sich mit der Anpassung von lernbasierten Methoden an diese neuen Perspektiven. Gegenstand dieser Arbeit sind insbesondere drei unterschiedliche Forschungsbereiche mit den folgenden, zugrundeliegenden Treibern: dem Wunsch eine zuverlässige Vorhersage zu treffen (a) gegeben einer großen Anzahl von Klassen oder (b) gegeben einer großen Anzahl von Datenpunkten, und (c) komplexe Datenmodelle besser verstehen zu können. Jeder dieser Punkte bedarf einer effizienten Lösung und um die folgenden Problemstellungen zu bearbeiten, erforschen wir Ansätze im Schnittpunkt von Algorithmen- und Software-Entwicklung. Der erste Beitrag behandelt die Klassifizierung mit einer großen Anzahl von Klassen sowie die effektiven Vorsagemethoden Stützvektormaschinen. Vielversprechende Formulierungen dieser Methode optimieren alle Klassen gleichzeitig, jedoch stellt sich die Nutzung ihres Potentials in der genannten Anwendung als Herausforderung dar. Für zwei solche Formulierungen schlagen wir exakte Optimierungsverfahren vor, deren Berechnungen und Modellparameter sich auf verschiedene Recheninstanzen verteilen lassen. Dies ermöglicht es uns eine Analyse mit großen Textdaten durchzuführen und die Überlegenheit von Klassen-übergreifenden Ansätzen zu bestätigen. Weitere Eckpfeiler des maschinellen Lernens sind Kernmethoden und neuronale Netze. Das Aufkommen von Datensätzen mit einer großen Anzahl von Datenpunken offenbart ein Skalierungsproblem von Kernmethoden und der vorherrschende Lösungsansatz beruht auf einer Approximation mit Zufallszahlen. In unserem zweiten Beitrag argumentieren wir die Ineffizienz der Nutzung von Zufallszahlen und zerlegen den Effekt dieser Daten- und problemunabhängigen Methode in einer empirischen Studie. Dazu betrachten wir approximierte Kernmaschinen als neuronale Netze und entwickeln einen neuartigen, effizienten Optimierungsansatz um den Übergang zwischen den beiden Lernparadigmen zu untersuchen. Das Ziel unseres letzten Beitrags ist ein besseres Verständnis für die komplexen Arbeitsweisen tiefer, neuronaler Netze zu ermöglichen. Dieses wertvolle Lernwerkzeug hat in einer Vielzahl von Anwendungen beeindruckende Ergebnisse erzielt. Seine Funktionsweise ist aber im Vergleich zu anderen Techniken schwierig nachzuvollziehen. Eine Reihe von Methoden wurde als Lösung vorgeschlagen und darunter sind “propagation”-basierte Analysen überzeugende Kandidaten — jedoch fehlt für viele dieser Algorithmen effiziente Software. Mit der Entwicklung der Softwarebibliothek iNNvestigate, welche sich durch eine intuitive Schnittstelle und einen modularen Aufbau auszeichnet, eröffnen wir Laien den Zugang zu solchen Methoden und beschleunigen deren Forschung mit komplexen, neuronalen Netzen.
URI: https://depositonce.tu-berlin.de/handle/11303/9472
http://dx.doi.org/10.14279/depositonce-8528
Exam Date: 10-May-2019
Issue Date: 2019
Date Available: 16-Aug-2019
DDC Class: 004 Datenverarbeitung; Informatik
Subject(s): machine learning
artificial intelligence
kernel learning
neural networks
support vector machines
maschinelles Lernen
Künstliche Intelligenz
Kernmethoden
neuronale Netzwerke
Stützvektormaschinen
License: http://rightsstatements.org/vocab/InC/1.0/
Appears in Collections:FG Maschinelles Lernen » Publications

Files in This Item:
File Description SizeFormat 
alber_maximilian.pdf16.33 MBAdobe PDFThumbnail
View/Open


Items in DepositOnce are protected by copyright, with all rights reserved, unless otherwise indicated.