Loading…
Thumbnail Image

The reliability of deep learning for signal and image processing: Interpretability, robustness, and accuracy

Macdonald, Jan Lukas

This thesis investigates several aspects of using data-driven methods for image and signal processing tasks, particularly those aspects related to the reliability of approaches based on deep learning. It is organized in two parts. The first part studies the interpretability of predictions made by neural network classifiers. A key component for achieving interpretable classifications is the identification of relevant input features for the predictions. While several heuristic approaches towards this goal have been proposed, there is yet no generally agreed-upon definition of relevance. Instead, these heuristics typically rely on individual (often not explicitly stated) notions of interpretability, making comparisons of results difficult. The contribution of the first part of this thesis is the introduction of an explicit definition of relevance of input features for a classifier prediction and an analysis thereof. The formulation is based on a rate-distortion trade-off and derived from the observation and identification of common questions that practitioners would like to answer with relevance attribution methods. It turns out that answering these questions is extremely challenging: A computational complexity analysis reveals the hardness of determining the most relevant input features (even approximately) for Boolean classifiers as well as for neural network classifiers. This hardness in principle justifies the adoption of heuristic strategies and the explicit rate-distortion formulation inspires a novel approach that specifically aims at answering the identified questions of interest. Furthermore, it allows for a quantitative evaluation of relevance attribution methods, revealing that the newly proposed heuristic performs best in identifying the relevant input features compared to previous methods. The second part studies the accuracy and robustness of deep learning methods for the reconstruction of signals from undersampled indirect measurements. Such inverse problems arise for example in medical imaging, geophysics, communication, or astronomy. While widely used classical variational solution methods come with reconstruction guarantees (under suitable assumptions), the underlying mechanisms of data-driven methods are mostly not well understood from a mathematical perspective. Nevertheless, they show promising results and frequently empirically outperform classical methods in terms of reconstruction quality and speed. However, several doubts remain regarding their reliability, in particular questions concerning their robustness to perturbations. Indeed, for classification tasks it is well known that neural networks are vulnerable to adversarial perturbations, i.e., tiny modifications that are visually imperceptible but mislead the neural network to make a wrong prediction. This raises the question if similar effects also occur in the context of signal recovery. The contribution of the second part of this thesis is an extensive numerical study of the robustness of a representative selection of end-to-end neural networks for solving inverse problems. It is demonstrated that for such regression problems (in contrast to classification) neural networks can be remarkably robust to adversarial and statistical perturbations. Furthermore, they show state-of-the-art performance resulting in highly accurate reconstructions: In the idealistic scenario of synthetic and perturbation-free data neural networks have the potential to achieve near-perfect reconstructions, i.e., their reconstruction error is close to numerical precision.
In dieser Dissertation werden verschiedene Aspekte der Verwendung datengestützter Methoden für die Bild- und Signalverarbeitung untersucht, insbesondere die Zuverlässigkeit von Deep Learning Ansätzen. Die Arbeit ist in zwei Teile gegliedert. Der erste Teil untersucht die Interpretierbarkeit von Klassifikationsvorhersagen, die von neuronalen Netzen gemacht werden. Eine Schlüsselkomponente für eine interpretierbare Klassifikation ist die Identifizierung der relevanten Eingabegrößen für eine Vorhersage. Es wurden zwar bereits zahlreiche heuristische Ansätze zur Erreichung dieses Ziels vorgeschlagen, doch gibt es keine allgemein anerkannte Definition für die Relevanz. Stattdessen beruhen diese Heuristiken in der Regel auf individuellen (oft nicht explizit genannten) Auffassungen von Interpretierbarkeit, was einen Vergleich der Ergebnisse erschwert. Der wissenschaftliche Beitrag des ersten Teils dieser Arbeit ist die Einführung sowie die Analyse einer expliziten Definition für die Relevanz von Eingabegrößen für die Vorhersage einer Klassifikationsfunktion. Die Formulierung basiert auf einem Rate-Distortion-Trade-Off und leitet sich aus der Feststellung und Identifizierung von gängigen Fragen ab, die in Anwendungen mit Hilfe von Relevanzbewertungsmethoden beantwortet werden sollen. Wie sich herausstellt, ist die Beantwortung dieser Fragen jedoch äußerst schwierig: Eine Untersuchung der rechnerischen Komplexität zeigt, wie aufwendig es ist, die relevantesten Eingabegrößen für Boolesche Klassifikatoren und für Klassifikatoren auf Basis von neuronalen Netzen (auch nur approximativ) zu bestimmen. Diese Schwierigkeit rechtfertigt prinzipiell die Anwendung heuristischer Strategien. Ein neuartiger Ansatz, der speziell auf die Beantwortung der identifizierten Fragen von praktischem Interesse abzielt, lässt sich direkt aus der expliziten Rate-Distortion-Trade-Off Formulierung ableiten. Darüber hinaus ermöglicht er eine quantitative Evaluation von Methoden zur Relevanzbewertung und zeigt, dass die neu vorgeschlagene Heuristik im Vergleich zu früheren Methoden die besten Ergebnisse bei der Identifizierung von relevanten Eingabegrößen erzielt. Der zweite Teil untersucht die Genauigkeit und Robustheit von Deep Learning Methoden für die Rekonstruktion von Signalen aus unzureichend abgetasteten indirekten Messungen. Solche inversen Probleme treten zum Beispiel in der medizinischen Bildgebung, Geophysik, Nachrichtentechnik oder Astronomie auf. Während weit verbreitete klassische variationelle Lösungsmethoden (unter geeigneten Annahmen) Rekonstruktionsgarantien bieten, sind die zugrunde liegenden Mechanismen der datengestützten Methoden aus mathematischer Sicht meist nicht gut verstanden. Dennoch zeigen sie vielversprechende Ergebnisse und übertreffen empirisch häufig die klassischen Methoden in ihrer Rekonstruktionsqualität und -geschwindigkeit. Allerdings bestehen nach wie vor einige Zweifel an ihrer Zuverlässigkeit, insbesondere hinsichtlich ihrer Robustheit gegenüber Störungen der Eingaben. In der Tat ist bekannt, dass Klassifikatoren auf Basis von neuronalen Netzen anfällig gegenüber absichtlich herbeigeführten Störungen sind. Das heißt, dass winzige, visuell nicht wahrnehmbare, Veränderungen des Eingabesignals das neuronale Netz zu einer falschen Vorhersage verleiten können. Daher stellt sich die Frage, ob ähnliche Effekte auch im Zusammenhang mit der Signalrekonstruktion auftreten. Der wissenschaftliche Beitrag des zweiten Teils dieser Arbeit ist eine umfangreiche numerische Untersuchung der Robustheit von einer repräsentativen Auswahl von End-to-End Lösungsmethoden für inverse Probleme auf Basis von neuronalen Netzen. Es wird gezeigt, dass neuronale Netze für solche Regressionsproblemen (im Gegensatz zu den Klassifikationsproblemen) durchaus sehr robust gegenüber absichtlich herbeigeführten und auch unvermeidbaren statistischen Störungen sein können. Darüber hinaus können sie als State-of-the-Art angesehen werden und führen zu äußerst genauen Rekonstruktionen: Unter idealisierten Bedingungen mit synthetischen und störungsfreien Daten haben neuronale Netze das Potenzial, nahezu perfekte Rekonstruktionen zu erzielen, das heißt, ihr Rekonstruktionsfehler erreicht fast die numerische Maschinengenauigkeit.