Loading…
Thumbnail Image

Towards robustifying deep neural networks against adversarial, fringe and distorted examples

Srinivasan, Vignesh

Recently Deep Neural Network (DNN) models have shown remarkable successes on several tasks including classification, domain translation etc. However, those methods typically do not perform well on samples lying on relatively low-density areas of the data distribution, where the model was not well trained. In this thesis, we analyze the effect of different types of noise on the predictions of different DNN-based applications. In particular, for classification based models, we propose a generalized framework for crafting adversarial examples in a blackbox attack setting. As defense against such adversarial examples, we propose a novel algorithm called MALADE, which drives the given off-manifold input towards the high density regions of the data generating distribution with intrinsic knowledge of the perceptual decision boundary during inference. For domain translation based models, we propose to drive the unsuccessful fringe examples towards the data manifold by cooling the input test distribution using Langevin dynamics. We demonstrate qualitatively and quantitatively that our strategy enhances the robustness of state-of-the-art methods for classification as well as for domain translation tasks. Taking medical imaging as an exemplar use-case of DNN-based classification, we evaluate the robustness of pretraining and self-supervision strategies to input distortions and bias.
In letzter Zeit haben Tiefe Neuronale Netze Modelle bemerkenswerte Erfolge bei verschiedenen Aufgaben wie Klassifizierung, Domänenübersetzung usw. gezeigt. Allerdings liefern diese Methoden in der Regel weniger gute Ergebnisse bei Stichproben, die in Bereichen mit relativ geringer Dichte der Datenverteilung liegen, in denen das Modell nicht ausreichend trainiert wurde. In dieser Arbeit, analysieren wir die Auswirkung verschiedener Arten von Rauschen auf die Vorhersagen von Anwendungen, die auf tiefen Neuronalen Netzen basieren. Insbesondere ein verallgemeinertes Rahmenwerk für die Erstellung negativer Beispiele in einer Blackbox-Angriffssituation für klassifikationsbasierte Modelle Präsentieren wir. Zum Schutz vor solchen schädlichen Beispielen entwickeln wir einen neuartigen Algorithmus namens MALADE, der den gegebenen Off-Manifold-Input in Richtung der Regionen mit hoher Dichte der datenerzeugenden Verteilung. Hierbei machen wir uns intrinsisches Wissen über die wahrnehmungsbezogene Entscheidungsgrenze während der Inferenz zunutze. Für auf Domänenübersetzung basierende Modelle, schlagen wir vor, Ergebnisse von niedriger Qualität in Richtung der Datenverteiler zu lenken durch Abkühlung der Eingabe-Test-Verteilung mit Hilfe der Langevin-Dynamik. Wir zeigen qualitativ und quantitativ, dass unsere Strategie die Robustheit von State-of-the-Art-Methoden für die Klassifikation sowie für Domänenübersetzungsaufgaben verbessert. Am Beispiel von medizinischen Bildgebung als exemplarischem Anwendungsfall Von Klassifikation basierend auf neuronalen Netzen bewerten wir die Robustheit von Pretraining und Selbstüberwachungsstrategien gegenüber Eingabeverzerrungen und systematischem Bias.