Thumbnail Image

Explainable structured machine learning

insights into similarity, graph and transformer models

Eberle, Oliver

Explainable artificial intelligence aims to make complex machine learning models interpretable. Having access to transparent prediction processes is crucial to ensure the safe, trustworthy and fair use of machine learning in science, industry and society. Unfortunately, many widely used models such as deep similarity models, graph neural networks and Transformer models, are highly non-linear and structured in ways that challenge the extraction of meaningful explanations. The well-established layer-wise relevance propagation explanation method with its theoretical foundation in deep Taylor decomposition serves as a methodological anchor to develop explanation techniques that consider the particular model structure. Specifically, we investigate how to explain dot product similarity, graph neural network predictions and self-attention modules in Transformer models. We observe that this can require to go beyond standard explanations in terms of input features that result in second-order and higher-order attributions. This motivates to extend existing approaches for the evaluation and visualization of explanation techniques to these new types of explanations. In parallel to these methodological contributions, we investigate how these methods can be used in different domain applications. In particular, we apply the different explanation methods to a variety of use cases. We build and explain a similarity model designed to represent numerical content in the digital humanities to study the evolution of the history of science, revisit image classification by visualizing the relevance flow through the different processing layers and turn to natural language processing to investigate gender bias in Transformer models as well as analyze Transformer explanations during task-solving. Throughout our experiments and analyses, we demonstrate that a careful treatment of model structure in explanation methods can improve their faithfulness, result in better explanations and enable novel insights.
Erklärbare künstliche Intelligenz zielt darauf ab, komplexe maschinelle Lernmodelle interpretierbar zu machen. Der Zugang zu transparenten Vorhersageprozessen ist entscheidend für die sichere, vertrauenswürdige und faire Nutzung des maschinellen Lernens in Wissenschaft, Industrie und Gesellschaft. Leider sind viele weit verbreitete Modelle wie tiefe Ähnlichkeits-Modelle, neuronale Graphennetze und Transformer-Modelle äußerst nichtlinear und in einer Weise strukturiert, die die Berechnung verlässlicher Erklärungen erschwert. Die etablierte Methode der layer-wise relevance propagation mit ihrer theoretischen Grundlage in der tiefen Taylor-Dekomposition dient hier als methodologischer Anker für die Entwicklung von Erklärungstechniken, welche besondere Eigenschaften der Modellstruktur berücksichtigen. Konkret untersuchen wir, wie Skalarprodukt-Ähnlichkeit, Berechnungen von Graph Neural Networks und Attention-Module in Transformer-Modellen erklärbar gemacht werden können. Dies kann erfordern, über Standarderklärungen in Bezug auf Eingangsmerkmale hinauszugehen und Attributionen zweiter und höherer Ordnung zu berücksichtigen. Dies motiviert die Ausweitung bestehender Ansätze zur Evaluation und Visualisierung von Erklärungstechniken auf diese neuen Arten von Erklärungen. Parallel zu diesen methodologischen Beiträgen untersuchen wir, wie diese Methoden in verschiedenen Anwendungsbereichen eingesetzt werden können. Insbesondere wenden wir die verschiedenen Erklärungsmethoden auf eine Vielzahl von Anwendungsfällen an. Wir entwickeln und machen ein Ähnlichkeitsmodell zur Darstellung numerischer Inhalte in den digitalen Geisteswissenschaften erklärbar, was es uns ermöglicht die Entwicklung der Wissenschaftsgeschichte zu untersuchen. Zudem untersuchen wir Bildklassifizierungs-Modelle und visualisieren den Relevanzfluss durch die verschiedenen Verarbeitungsebenen, wenden uns der Verarbeitung natürlicher Sprache zu, untersuchen geschlechtsspezifische Voreingenommenheit in Transformer-Modellen und analysieren aufgabenspezifische Transformer-Erklärungen. In unseren Experimenten und Analysen zeigen wir, dass eine sorgfältige Behandlung von strukturierten Informationen zu besseren Erklärungen führt und neue Erkenntnisse ermöglicht.