Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-8329
Main Title: Features and machine learning systems for structured and sequential data
Translated Title: Merkmale und Systeme Maschinellen Lernens für strukturierte und sequentielle Daten
Author(s): Schwenk, Guido
Advisor(s): Müller, Klaus-Robert
Referee(s): Müller, Klaus-Robert
Rieck, Konrad
Feldmann, Anja
Granting Institution: Technische Universität Berlin
Type: Doctoral Thesis
Language Code: en
Abstract: Modern web and communication technology relies heavily on sequential and structured data for its process execution and communication protocols. Due to its complex properties, a manual analysis and detection of problems on this data is too time-consuming and expensive, and hence not feasible. As a consequence, features and automatic learning systems on this type of data are highly sought after. To address these issues, the thesis proposes features and systems for learning on structured, sequential and temporal data, both in abstract and in concrete form, with a focus on analyses in the fields of IT security and Quality of Service, on the data domains of analysis data of malware binaries and JavaScript code, as well as on mobile network communication data. The proposed features and feature combinations cover various statistical, non-behavioral and behavioral, stateless, stateful, structural and temporal concepts, and are used individually and in a complementary manner, e.g. via hierarchical or ensemble approaches. The proposed learning systems are evaluated against competitive approaches, where they outperform commonly used and state-of-the-art methods, including approaches using neural networks. Specific practically relevant aspects are also addressed in depth, like high levels of automation to extend the scope of the system application, different re-training procedures, or the calibration of metrics relevant for the specific domain. To improve the interpretability of the system processes and their results and to increase the system reliability and its level of trust, different visualization approaches are proposed, focussing on interpretable and transparent feature projections and relevance analyses. These additional discussions on the proposed ideas further support a potential adaptation of the proposed ideas to concrete application scenarios.
Moderne Internet und Kommunikationstechnologien nutzen sequentielle und strukturierte Daten zur Ausführung ihrer Prozesse und Kommunikationsprotokolle. Aufgrund deren komplexer Eigenschaften ist eine manuelle Erkennung und Analyse von Problemen auf diesen Daten zu zeitaufwendig und teuer und daher oft nicht realisierbar. Infolgedessen sind automatisierte Lernsysteme, die auf solchen Daten arbeiten und dies ermöglichen, sehr gefragt. Die vorliegende Dissertation adressiert dies in mehrfacher Hinsicht. So werden Eigenschaften, Systeme und Merkmale von strukturierten, sequentiellen und temporalen Daten diskutiert, sowohl in abstrakter wie auch konkreter Form am Beispiel von Analysedaten von JavaScript Code und Schadsoftware im Bereich der IT Sicherheit, sowie auf Mobilfunkkommunikationsdaten zu Zwecken der Qualitätssicherung. Es werden verschiedene individuelle wie auch kombinierte statistische, verhaltensbasierte, zustandslose, zustandsbasierte, strukturelle sowie temporale Merkmalsarten eingeführt und analysiert. Dabei werden deren Eigenschaften sowohl im individuellen Gebrauch wie auch im Verbundgebrauch analysiert, beispielsweise in Form von hierarchischen Merkmalsverbänden oder Ensemble-Ansätzen. Die Klassifikationsleistungen und Merkmalseigenschaften der vorgestellten Lernsysteme werden im Rahmen umfangreicher Evaluationen mit konkurrierenden Ansätzen verglichen. Dabei zeigen sich sehr gute Ergebnisse der vorgestellten Methoden, selbst im Vergleich zu state-of-the-art Methoden wie neuronalen Netzwerken. Zusätzlich werden praktisch relevante Aspekte der besprochenen Probleme adressiert, um deren Potential einer realen Anwendung zu erhöhen. Dazu gehören beispielsweise ein hoher Grad an Automatisierung der vorgeschlagenen Systeme, verschiedene Trainingsprozeduren, sowie Möglichkeiten der Kalibrierung von Metriken, die für das besprochene Anwendungsgebiet relevant sind. Auch die Möglichkeiten der Interpretierbarkeit und Transparenz der vorgeschlagenen Systeme werden besprochen und mit verschiedenen Methoden adressiert, um dadurch das Vertrauen in die vorgestellten automatisierten Lernsysteme zu erhöhen. Unter anderem werden dazu verschiedene Visualisierungsmethoden für Daten und Merkmale, sowie Möglichkeiten der Ergebnisrelevanzanalyse vorgestellt.
URI: https://depositonce.tu-berlin.de/handle/11303/9252
http://dx.doi.org/10.14279/depositonce-8329
Exam Date: 18-Mar-2019
Issue Date: 2019
Date Available: 23-Apr-2019
DDC Class: 004 Datenverarbeitung; Informatik
Subject(s): machine learning
feature engineering
classification systems
IT security
mobile network communication
Maschinelles Lernen
Klassifikationssysteme
IT Sicherheit
Mobilfunk-Netzwerkommunikation
License: https://creativecommons.org/licenses/by/4.0/
Appears in Collections:FG Maschinelles Lernen » Publications

Files in This Item:
File Description SizeFormat 
schwenk_guido.pdf22.7 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons