Features and machine learning systems for structured and sequential data

dc.contributor.advisorMüller, Klaus-Robert
dc.contributor.authorSchwenk, Guido
dc.contributor.grantorTechnische Universität Berlinen
dc.contributor.refereeMüller, Klaus-Robert
dc.contributor.refereeRieck, Konrad
dc.contributor.refereeFeldmann, Anja
dc.date.accepted2019-03-18
dc.date.accessioned2019-04-23T15:06:33Z
dc.date.available2019-04-23T15:06:33Z
dc.date.issued2019
dc.description.abstractModern web and communication technology relies heavily on sequential and structured data for its process execution and communication protocols. Due to its complex properties, a manual analysis and detection of problems on this data is too time-consuming and expensive, and hence not feasible. As a consequence, features and automatic learning systems on this type of data are highly sought after. To address these issues, the thesis proposes features and systems for learning on structured, sequential and temporal data, both in abstract and in concrete form, with a focus on analyses in the fields of IT security and Quality of Service, on the data domains of analysis data of malware binaries and JavaScript code, as well as on mobile network communication data. The proposed features and feature combinations cover various statistical, non-behavioral and behavioral, stateless, stateful, structural and temporal concepts, and are used individually and in a complementary manner, e.g. via hierarchical or ensemble approaches. The proposed learning systems are evaluated against competitive approaches, where they outperform commonly used and state-of-the-art methods, including approaches using neural networks. Specific practically relevant aspects are also addressed in depth, like high levels of automation to extend the scope of the system application, different re-training procedures, or the calibration of metrics relevant for the specific domain. To improve the interpretability of the system processes and their results and to increase the system reliability and its level of trust, different visualization approaches are proposed, focussing on interpretable and transparent feature projections and relevance analyses. These additional discussions on the proposed ideas further support a potential adaptation of the proposed ideas to concrete application scenarios.en
dc.description.abstractModerne Internet und Kommunikationstechnologien nutzen sequentielle und strukturierte Daten zur Ausführung ihrer Prozesse und Kommunikationsprotokolle. Aufgrund deren komplexer Eigenschaften ist eine manuelle Erkennung und Analyse von Problemen auf diesen Daten zu zeitaufwendig und teuer und daher oft nicht realisierbar. Infolgedessen sind automatisierte Lernsysteme, die auf solchen Daten arbeiten und dies ermöglichen, sehr gefragt. Die vorliegende Dissertation adressiert dies in mehrfacher Hinsicht. So werden Eigenschaften, Systeme und Merkmale von strukturierten, sequentiellen und temporalen Daten diskutiert, sowohl in abstrakter wie auch konkreter Form am Beispiel von Analysedaten von JavaScript Code und Schadsoftware im Bereich der IT Sicherheit, sowie auf Mobilfunkkommunikationsdaten zu Zwecken der Qualitätssicherung. Es werden verschiedene individuelle wie auch kombinierte statistische, verhaltensbasierte, zustandslose, zustandsbasierte, strukturelle sowie temporale Merkmalsarten eingeführt und analysiert. Dabei werden deren Eigenschaften sowohl im individuellen Gebrauch wie auch im Verbundgebrauch analysiert, beispielsweise in Form von hierarchischen Merkmalsverbänden oder Ensemble-Ansätzen. Die Klassifikationsleistungen und Merkmalseigenschaften der vorgestellten Lernsysteme werden im Rahmen umfangreicher Evaluationen mit konkurrierenden Ansätzen verglichen. Dabei zeigen sich sehr gute Ergebnisse der vorgestellten Methoden, selbst im Vergleich zu state-of-the-art Methoden wie neuronalen Netzwerken. Zusätzlich werden praktisch relevante Aspekte der besprochenen Probleme adressiert, um deren Potential einer realen Anwendung zu erhöhen. Dazu gehören beispielsweise ein hoher Grad an Automatisierung der vorgeschlagenen Systeme, verschiedene Trainingsprozeduren, sowie Möglichkeiten der Kalibrierung von Metriken, die für das besprochene Anwendungsgebiet relevant sind. Auch die Möglichkeiten der Interpretierbarkeit und Transparenz der vorgeschlagenen Systeme werden besprochen und mit verschiedenen Methoden adressiert, um dadurch das Vertrauen in die vorgestellten automatisierten Lernsysteme zu erhöhen. Unter anderem werden dazu verschiedene Visualisierungsmethoden für Daten und Merkmale, sowie Möglichkeiten der Ergebnisrelevanzanalyse vorgestellt.de
dc.identifier.urihttps://depositonce.tu-berlin.de/handle/11303/9252
dc.identifier.urihttp://dx.doi.org/10.14279/depositonce-8329
dc.language.isoenen
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/en
dc.subject.ddc004 Datenverarbeitung; Informatikde
dc.subject.othermachine learningen
dc.subject.otherfeature engineeringen
dc.subject.otherclassification systemsen
dc.subject.otherIT securityen
dc.subject.othermobile network communicationen
dc.subject.otherMaschinelles Lernende
dc.subject.otherKlassifikationssystemede
dc.subject.otherIT Sicherheitde
dc.subject.otherMobilfunk-Netzwerkommunikationde
dc.titleFeatures and machine learning systems for structured and sequential dataen
dc.title.translatedMerkmale und Systeme Maschinellen Lernens für strukturierte und sequentielle Datende
dc.typeDoctoral Thesisen
dc.type.versionacceptedVersionen
tub.accessrights.dnbfreeen
tub.affiliationFak. 4 Elektrotechnik und Informatik::Inst. Softwaretechnik und Theoretische Informatik::FG Maschinelles Lernende
tub.affiliation.facultyFak. 4 Elektrotechnik und Informatikde
tub.affiliation.groupFG Maschinelles Lernende
tub.affiliation.instituteInst. Softwaretechnik und Theoretische Informatikde
tub.publisher.universityorinstitutionTechnische Universität Berlinen

Files

Original bundle
Now showing 1 - 1 of 1
Loading…
Thumbnail Image
Name:
schwenk_guido.pdf
Size:
22.16 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
4.9 KB
Format:
Item-specific license agreed upon to submission
Description:

Collections