Thumbnail Image

One-class classification in the presence of point, collective, and contextual anomalies

Görnitz, Nico

Anomaly detection has a prominent position in the processing pipeline of any real-world data-driven application. Its central goal is to detect and separate valid data points from malicious-anomalous-ones such that the cleaned data set can be processed further. In many applications, anomalies are even the prime objects of interest and need to be exposed early in order to avoid loss, e.g. in credit card fraud detection. One-class classification is a machine learning concept that is especially suited for the anomaly detection problem. Intrinsically unsupervised, it aims at providing a concise description of a given data set such that data points generated by a different process can be detected accurately. Prominent machine learning models for one-class classification are one-class support vector machines and the closely related support vector data descriptions. The contribution of this thesis is the extension of those methods to cope with different scenarios of anomalies: - Point Anomalies: Assuming that anomalies are scarce and occur independently of each other, methods for controlling the sparsity of the found solutions in terms of single independent features and groups of features are derived. - Collective Anomalies: In this scenario anomalies are assumed to appear as groups of measurements instead of single entries. Techniques from structured output learning are (i) extended to cope with large-scale problems, (ii) employed to derive an unsupervised anomaly detector for groups of measurements that exhibit a latent dependency structure. - Contextual Anomalies: Anomalies appear only in specific contexts and data is supposed to carry two signals that contain behavioral and contextual information. Contributions in this scenario consider latent class dependencies and are threefold: (i) the derivation of a method capable of detecting latent class contextual anomalies, (ii) theoretical insight reveal \kmeans as a special case, and (iii) a method for learning with latent class dependencies when an additional structure is imposed on the latent variables. The proposed methods are empirically analyzed on a variety of different applications ranging from gene finding to porosity estimation to brain computer interfaces showing promising performance when compared to baseline methods.
Anomalieerkennung nimmt im Verarbeitungsablauf jeder realen Daten-getriebenen Anwendung eine wichtige Stellung ein. Ihre zentrale Aufgabe ist es gültige Daten zu erkennen und von Ungültigen, anomalen Daten, zu trennen sodass der so bereinigte Datensatz weiter verarbeitet werden kann. In vielen Anwendungen sind sogar die Anomalien die interessantesten Objekte und sollten so früh wie möglich erkannt werden um möglichen Verlusten vorzubeugen wie zum Beispiel bei der Prävention von Kreditkartenbetrug. Einklassen-Klassifikation ist ein Konzept des Maschinellen Lernens, welches besonders geeignet ist um Anomalien zu detektieren. Es handelt sich um intrinsisch unüberwachte Lernverfahren welche darauf abzielen eine genaue Beschreibung eines gegebenen Datensatzes zu liefern, so dass Datenpunkte, die von einem anderen Prozess erzeugt wurden, akkurat erkannt werden können. Die wichtigsten Vertreter dieser Zunft sind die Einklassen-SVM sowie die mir ihr eng verwandte SVDD. Diese Arbeit leisten einen Beitrag um diese Methoden so zu erweitern, dass sie mit den folgenden, allgemeinen Anomalieszenarien umgehen können: - Punktanomalien: Wir nehmen an, dass Anomalien selten sind und unabhängig voneinander auftreten. Wir entwickeln Methoden, welche die Spährlichkeit, die Anzahl der Nullstellen in der Lösung, kontrollieren, basierend dabei auf einzelnen Merkmalen oder Gruppen von Merkmalen. - Kollektivanomalien: In diesem Szenario wird angenommen, dass Anomalien in Gruppen von Messungen auftreten anstatt als isolierte Einzelmessung. Wir werden Techniken vom Strukturlernen (i) erweitern, um mit grossen Datenmeengen umgehen zu können, und (ii) anwenden um einen unüberwachten Anomalieerkenner für Gruppen von Messungen zu entwickeln, wenn diese Messungen eine latente Abhängigkeitsstruktur besitzen. - Kontextanomalien: Anomalien erscheinen nur in gewissen Kontext und es wird angenommen, dass Daten aus Verhaltens- und Kontextinformationen bestehen. Beiträge in diesen Szenario beschränken sich auf latente Klassenstruktur und sind dreigeteilt: (i) eine Methode zur Erkennung von Anomalien mit latenter Klassenstruktur wird vorgestellt, (ii) theoretische Einsichten, welche zeigen das \kmeans ein Spezialfall ist, werden vorgestellt, und (iii) eine Methode die mit latenter Klassenstruktur umgehen kann, wenn diese wiederum eine eigene Abhängigkeitsstruktur besitzt, wird entwickelt. Die vorgestellten Methoden werden empirisch analysiert. Die Anwendungen reichen dabei von Generkennung über Hirn-Computer-Schnittstellen zu Porositätserkennung. Dabei zeigen die vorgestellten Methoden im Vergleich zu Standardmethoden vielversprechende Resultate.