Loading…
Thumbnail Image

A geometrical perspective on explanations for deep neural networks

Dombrowski, Ann-Kathrin

In the past decade, artificial neural networks have seen unprecedented gains in capabilities and applications. With their increased popularity, the need for a more detailed understanding of how these models reach certain decisions emerged. The field of explainable artificial intelligence has therefore attracted significant attention in recent years, promising to provide insight into the decision-making process of deep neural networks. Of course, explainability has its own caveats, and results produced by explanation methods are not always well understood. This curtails acceptance and effective application of explanation methods. In this thesis we therefore work towards a unified geometrical understanding of explainability. We analyse undesired properties of explanation methods using concepts from differential geometry, and find countermeasures that improve their robustness and interpretability. In the first part, we show that many popular gradient- and propagation-based explanations can be arbitrarily manipulated to fit an attacker's desired output. We analyse this surprising behavior theoretically and connect the explanation's susceptibility to manipulation to the high curvature of the network's output manifold. Based on these insights, we propose $\beta$-smoothing, a novel explanation method that is more robust against adversarial perturbations. Furthermore, we investigate how a changed training regime can reduce the curvature of a neural network and derive different regularizers which boost the robustness of explanations. In the second part, we focus on another popular field of explainability, namely counterfactual explanations. These can be interpreted very intuitively and are therefore of tremendous value in medicine, finance, law, and other areas where user-friendly explanations are paramount. However, finding counterfactuals with structural differences to the query input, which stand in contrast to mere adversarial examples, can be difficult. Investigating this challenge from a geometrical point of view leads us to the insight that finding a suitable coordinate system for the search process reduces the generation of counterfactuals to a simple gradient ascent optimization. We then introduce an elegant, yet effective algorithm that makes use of the latent space of a generative model to produce high-quality counterfactuals which lie on the data manifold.
Künstliche neuronale Netze haben in den letzten zehn Jahren eine beispiellose Renaissance erlebt, doch es ist noch immer schwierig den Entscheidungsprozess solcher neuronalen Netze nachzuvollziehen. So haben kürzlich Methoden der erklärbaren künstlichen Intelligenz viel Aufmerksamkeit auf sich gezogen, da diese dabei helfen können die Entscheidungsprozesse besser zu verstehen. Ergebnisse von Erklärmethoden sind allerdings selbst nicht immer gut verständlich. Dies schränkt die Akzeptanz und den effektiven Einsatz von Erklärungsmethoden ein. In dieser Arbeit arbeiten wir daher auf ein einheitliches geometrisches Verständnis von Erklärbarkeit hin. Mit Konzepten aus der Differentialgeometrie analysieren wir unerwünschte Eigenschaften von Erklärungsmethoden und finden Gegenmaßnahmen, welche die Robustheit und Interpretierbarkeit von Erklärungen verbessern. Im ersten Teil zeigen wir, dass viele populäre gradienten- und propagationsbasierte Erklärungen willkürlich manipuliert werden können. Dieses überraschende Verhalten analysieren wir theoretisch und finden Parallelen zwischen der Manipulierbarkeit der Erklärung und der Krümmung der Ergebnismannigfaltigkeit des neuronalen Netzes. Basierend auf diesen Einblicken präsentieren wir $\beta$-smoothing, eine neue Erklärmethode, die robuster gegen adverserielle Störungen ist. Darüber hinaus untersuchen wir, wie ein verändertes Trainingsregime die Krümmung eines neuronalen Netzes reduzieren kann und leiten verschiedene Regularisierer her, welche die Robustheit von Erklärungen verbessern. Im zweiten Teil konzentrieren wir uns auf einen anderen populären Bereich der Erklärbarkeit, nämlich kontrafaktische Erklärungen. Diese lassen sich sehr intuitiv interpretieren und sind daher wichtig in der Medizin, im Finanzwesen, im Recht und in anderen Bereichen, in denen benutzerfreundliche Erklärungen von größter Bedeutung sind. Die Suche nach kontrafaktischen Erklärungen mit strukturellen Unterschieden zur Eingabe, die im Gegensatz zu reinen adverseriellen Beispielen stehen, kann allerdings schwierig sein. Die Untersuchung dieser Herausforderung aus geometrischer Sicht führt uns zu der Erkenntnis, dass der Gebrauch eines geeigneten Koordinatensystems für den Suchprozess die Generierung von kontrafaktischen Erklärungen auf eine einfache Gradientenanstiegs Optimierung reduziert. Wir stellen einen effektiven Algorithmus vor, der den latenten Raum eines generativen Modells nutzt, um hochwertige kontrafaktische Erklärungen zu erzeugen, die auf der Datenmannigfaltigkeit liegen.