Loading…
Opening the machine learning black box with Layer-wise Relevance Propagation
Opening the machine learning black box with Layer-wise Relevance Propagation
Lapuschkin, Sebastian
FG Maschinelles Lernen
Machine learning techniques such as (Deep) Neural Networks are successfully solving a plethora of tasks, e.g. in image recognition and text analysis, and provide novel predictive models for complex physical, biological and chemical systems. However, due to the nested complex and non-linear structure of many machine learning models, this comes with the disadvantage of them acting as a black box, providing little or no information about the internal reasoning. This black box character hampers acceptance and application of non-linear methods in many application domains, where understanding individual model predictions and thus trust in the model’s decisions are critically important. In this thesis, we describe a novel method for explaining non-linear classifier decisions by decomposing the prediction function, called Layer-wise Relevance Propagation (LRP). We apply our method to Neural Networks, kernelized Support Vector Machines (with non-linear kernels) and Bag of Words feature extraction pipelines and evaluate LRP theoretically, qualitatively and quantitatively in comparison to other recent methods for interpreting model predictions. Using our method as a tool for comparative analyses between various pre-trained models we reveal different learned prediction strategies and flaws in datasets, predictors and the training thereof.
Techniken des maschinellen Lernens wie (Tiefe) Neuronale Netze lösen eine Vielzahl an Aufgaben mit großem Erfolg, beispielsweise in der Bilderkennung und Textanalyse, und bieten neuartige Vorhersagemodelle für komplexe physikalische, biologische und chemische Zusammenhänge auf. Dies geht jedoch durch die verschachtelte und komplex-nichtlineare Struktur vieler Modelle des maschinellen Lernens mit dem Nachteil einher, dass diese Modelle sich wie Black Boxes verhalten und keine oder nur wenig Informationen über interne Schlussfolgerungen preisgeben. Dieser Black Box-Charakter beeinträchtigt die Anwendung und Akzeptanz von nichtlinearen Methoden in zahlreichen Anwendungsgebieten, in denen das Verstehen individueller Modellvorhersagen, und somit das Vertrauen in das Vorhersagemodell unumgänglich ist. Diese Dissertation behandelt eine neuartige Methode, genannt Layer-wise Relevance Propagation (LRP), zur Erklärung nichtlinearer Klassifikationsentscheidungen mittels der Zerlegung der Vorhersagefunktion. Wir wenden unsere Methode auf Neuronale Netze, Support Vector Maschinen (mit nichtlinearen Kernen) und Bag of Words Merkmalsextraktionssysteme an, und evaluieren LRP auf theoretischer, qualitativer und quantitativer Ebene im Vergleich zu weiteren aktuellen Methoden zur Interpretation von Modellvorhersagen. Unsere Methode als Analysewerkzeug nutzend decken wir vergleichend zwischen diversen vortrainierten Modellen verschiedene erlernte Vorhersagestrate gien und Schwächen in Datensätzen, Prädiktionsmodellen und deren Training auf.