Thumbnail Image

Concepts for efficient, adaptive and robust deep learning from distributed data

Sattler, Felix

Due to their great performance and scalability properties, deep neural networks have become ubiquitous building blocks of many applications. With the rise of mobile and IoT devices, these models now are also being increasingly deployed and trained in distributed settings, where data is heterogeneous and separated by limited communication channels and privacy constraints. These distributed "on-device" training approaches, have many advantages over traditional cloud-based training such as better privacy-preservation, increased security and device autonomy. However, these advantages come at the cost of more challenging training conditions, due to hardware and network constraints of the training environment, statistical heterogeneity of the data, as well as robustness and privacy requirements among others. In this thesis, we present methodologies and algorithmic concepts to address these challenges jointly, by means of heterogeneity-aware and communication-efficient training, robust and adaptive multitask optimization and certainty-weighted aggregation methods. Our proposed solutions reduce communication-overhead in distributed training by up to four orders of magnitude, facilitate personalization and adversarial robustness via automatic device clustering and advance the state of the art in federated training performance in the presence of unlabeled auxiliary data. Our proposed methodologies enable widespread adoption of distributed training solutions, as has been demonstrated through their application to a variety of real-world problems in subsequent work.
Tiefe neuronale Netze haben in den vergangenen Jahren beachtliche Durchbrüche erzielt und weite Teile des maschinellen Lernens revolutioniert. Durch ihre Leistungsfähigkeit und Skalierbarkeit sind diese Modelle essentieller Bestandteil vieler Anwendungen geworden. Im Zuge der zunehmenden Verbreitung von Smartphones und intelligenten Geräten kommen tiefe neuronale Netze nun auch vermehrt in Szenarien zur Anwendung, in denen Trainingsdaten verteilt vorliegen und durch statistische Heterogenität gekennzeichnet sind. Aufgrund von Anforderungen an Privatsphäre, Sicherheit und Autonomie ist es in diesen Szenarien oft nicht möglich, die Trainingsdaten an einem zentralen Punkt zu sammeln. Um Daten in dieser Situation dennoch verwertbar zu machen, muss stattdessen auf verteilte Trainingsprotokolle zurück gegriffen werden, welche die Daten lokal auf jedem Erzeugergerät prozessieren und lediglich abstrakte akkumulierte Trainingsinformationen austauschen. Das verteilte Training birgt jedoch eine Reihe neuer Herausforderungen, welche sich unter anderem aus den Hardware- und Netzwerkbeschränkungen der Trainingsumgebung, der statistischen Heterogenität der Daten, sowie den Robustheits- und Privatsphäreanforderungen ergeben. Die vorliegende Arbeit beschreibt Methoden und Konzepte, welche diese Herausforderungen ganzheitlich adressieren. Die vorgestellten Algorithmen ermöglichen unter anderem eine Reduktion des Datenaustausches im verteilten Training um vier Größenordnungen, erlauben es Geräte automatisiert anhand der Ähnlichkeit ihrer Datenverteilungen zu gruppieren und steigern die Trainingsproduktivität durch adaptive Gewichtung der einzelnen Lerner im Aggregationsprozess. Auf diese Weise werden verteilte Trainingsmethoden auch in der Gegenwart starker Resourcenbeschränkungen zugänglich gemacht, sowie die Personalisierung und Robustheit der gelernten Modelle und des Trainingsprozesses verbessert. Wie durch ihre Verwendung in verschiedenen realen Probleme demonstriert wird, eröffnen die vorgestellten Methoden neue Möglichkeiten bezüglich der Anwendung des verteilten Lernens.