Efficient learning machines

Müller, Klaus-RobertAlber, Maximilian2019-08-162019-08-162019https://depositonce.tu-berlin.de/handle/11303/9472http://dx.doi.org/10.14279/depositonce-8528Science is in a constant state of evolution. There is a permanent quest for advancing knowledge in the light of changing capabilities and matters. The field of Machine Learning itself is shaped by the ever-increasing amount of data and computing power, creating new challenges as well as paving the way for new opportunities. This thesis is on adapting learning-based machines to these emerging prospects. In particular, subject of this work are three distinct research topics with the underlying drivers: the wish to reliably predict (a) given a large number of classes, (b) given a large number of samples, and (c) to understand complex algorithms and data models. Each reflects a unique need for an efficient proposition and we contribute by creating approaches located in the intersection of algorithm and software development in order to tackle the following problem statements. The first contribution researches multi-class classification with large label spaces and the effective prediction method support vector machines. Recent work suggests so-called all-in-one support vector machine formulations outperform one-vs.-rest formulations, but it is a challenge to leverage their potential for settings with a large number of classes. We approach this problem by proposing for two all-in-one machines exact optimization algorithms that distribute computation and model parameters evenly on computing instances. This allows us to perform an analysis on text data with a large label spaces and to confirm the favorable performance of all-in-one formulations. Other cornerstones of Machine Learning are kernel methods and neural networks. The ever-growing data collections expose a scaling issue of kernel methods with respect to a large number of data points. The predominant approach to alleviate this is an approximation based on random features. In our second contribution we argue that this randomness renders the method inefficient and dissect the effect of these data- and task-agnostic learning bases by means of an empirical study. Viewing approximated kernel machines as neural networks and a novel, efficient optimization approach enable us to shed light onto the interplay of these two important learning paradigms. Our last contribution aims to facilitate a better understanding of the predictions of deep neural networks. These data models have shown impressive results in a wide range of applications and are an invaluable tool. Yet, compared to many other Machine Learning techniques, their functioning is hard to understand and to retrace. Among many proposed methods, propagation-based prediction analysis has shown convincing results and is a promising candidate to address this shortcoming. A drawback is the lack of efficient software for many methods and emerging network structures. We contribute to this by developing the software library iNNvestigate, whose features are an intuitive interface and a modular design — enabling non-expert users access to these methods as well as accelerating research on complex neural networks.Die Wissenschaften befinden sich in einer fortwährenden Evolution, welche von den sich permanent ändernden Fähigkeiten und Gegebenheiten getrieben ist. Das Feld des maschinellen Lernens selbst ist durch ständig wachsende Datenmengen und Rechenleistungen geprägt, was sowohl neue Herausforderungen schafft als auch den Weg für neue Lösungen ebnet. Diese Arbeit beschäftigt sich mit der Anpassung von lernbasierten Methoden an diese neuen Perspektiven. Gegenstand dieser Arbeit sind insbesondere drei unterschiedliche Forschungsbereiche mit den folgenden, zugrundeliegenden Treibern: dem Wunsch eine zuverlässige Vorhersage zu treffen (a) gegeben einer großen Anzahl von Klassen oder (b) gegeben einer großen Anzahl von Datenpunkten, und (c) komplexe Datenmodelle besser verstehen zu können. Jeder dieser Punkte bedarf einer effizienten Lösung und um die folgenden Problemstellungen zu bearbeiten, erforschen wir Ansätze im Schnittpunkt von Algorithmen- und Software-Entwicklung. Der erste Beitrag behandelt die Klassifizierung mit einer großen Anzahl von Klassen sowie die effektiven Vorsagemethoden Stützvektormaschinen. Vielversprechende Formulierungen dieser Methode optimieren alle Klassen gleichzeitig, jedoch stellt sich die Nutzung ihres Potentials in der genannten Anwendung als Herausforderung dar. Für zwei solche Formulierungen schlagen wir exakte Optimierungsverfahren vor, deren Berechnungen und Modellparameter sich auf verschiedene Recheninstanzen verteilen lassen. Dies ermöglicht es uns eine Analyse mit großen Textdaten durchzuführen und die Überlegenheit von Klassen-übergreifenden Ansätzen zu bestätigen. Weitere Eckpfeiler des maschinellen Lernens sind Kernmethoden und neuronale Netze. Das Aufkommen von Datensätzen mit einer großen Anzahl von Datenpunken offenbart ein Skalierungsproblem von Kernmethoden und der vorherrschende Lösungsansatz beruht auf einer Approximation mit Zufallszahlen. In unserem zweiten Beitrag argumentieren wir die Ineffizienz der Nutzung von Zufallszahlen und zerlegen den Effekt dieser Daten- und problemunabhängigen Methode in einer empirischen Studie. Dazu betrachten wir approximierte Kernmaschinen als neuronale Netze und entwickeln einen neuartigen, effizienten Optimierungsansatz um den Übergang zwischen den beiden Lernparadigmen zu untersuchen. Das Ziel unseres letzten Beitrags ist ein besseres Verständnis für die komplexen Arbeitsweisen tiefer, neuronaler Netze zu ermöglichen. Dieses wertvolle Lernwerkzeug hat in einer Vielzahl von Anwendungen beeindruckende Ergebnisse erzielt. Seine Funktionsweise ist aber im Vergleich zu anderen Techniken schwierig nachzuvollziehen. Eine Reihe von Methoden wurde als Lösung vorgeschlagen und darunter sind “propagation”-basierte Analysen überzeugende Kandidaten — jedoch fehlt für viele dieser Algorithmen effiziente Software. Mit der Entwicklung der Softwarebibliothek iNNvestigate, welche sich durch eine intuitive Schnittstelle und einen modularen Aufbau auszeichnet, eröffnen wir Laien den Zugang zu solchen Methoden und beschleunigen deren Forschung mit komplexen, neuronalen Netzen.en004 Datenverarbeitung; Informatikmachine learningartificial intelligencekernel learningneural networkssupport vector machinesmaschinelles LernenKünstliche IntelligenzKernmethodenneuronale NetzwerkeStützvektormaschinenEfficient learning machinesDoctoral Thesisfrom kernel methods to deep learningEffiziente Lernmaschinenvon Kernmethoden zu tiefem Lernen