Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-14761
For citation please use:
Main Title: Anomaly symptom recognition in distributed IT systems
Translated Title: Erkennung von Anomaliesymptomen in verteilten IT-Systemen
Author(s): Acker, Alexander
Advisor(s): Kao, Odej
Referee(s): Kao, Odej
Bermbach, David
Griwodz, Carsten
Granting Institution: Technische Universität Berlin
Type: Doctoral Thesis
URI: https://depositonce.tu-berlin.de/handle/11303/15988
http://dx.doi.org/10.14279/depositonce-14761
License: https://creativecommons.org/licenses/by/4.0/
Abstract: The progressing global digitalization is driving innovative network technologies, computation platforms, and data-driven services. The number of components such as sensors, actuators, computing, storage, and network nodes, as well as a variety of service applications increases and results in IT systems of high complexity. A complex system is prone to errors or failures, but users expect services always to be available. Furthermore, high availability is essential for utilizing IT systems in critical areas such as medicine, logistics, energy, or the manufacturing industry. There, failures that are not immediately resolved can lead to hazardous situations. Consequently, system operators are increasingly overwhelmed with the task of keeping complex IT systems at an operational state. Solutions that support the operation and maintenance of complex IT systems are required to support humans. For this purpose, artificial intelligence for IT system operations (AIOps) is being explored to improve the availability, maintainability, and reliability of IT systems. It combines the research areas of artificial intelligence, machine learning, and system operation to monitor relevant components, analyze the monitoring data, and automatically select and execute operations to maintain an efficient operational state. The automation should enable improved robustness against failures. This thesis introduces methods to increase the availability of IT systems by reducing the time required to resolve errors and failures. Thereby, system components whose operational state deviates from a known norm are referred to as anomalies. We employ pattern recognition to search monitoring data from anomalous components for specific patterns. The identification of these anomaly symptoms allows a comparison to historical occurrences of anomalies and an automatic selection of feasible operations to resolve them. Further, our implemented methods can identify patterns that are representing yet unknown anomalies. Such cases are delegated to human experts. This "human-in-the-loop" approach represents a step-by-step transfer of knowledge from human experts into our system.
Die fortschreitende globale Digitalisierung treibt die Entwicklung von Netzwerktechnologien, Analyseplattformen und datengetriebenen Diensten voran. Damit einhergehend ist eine steigende Anzahl an Komponent wie Sensoren, Aktoren, Rechen- und Netzwerkknoten sowie unterschiedlichen Applikationen. Infolgedessen nimmt die Komplexität von IT Infrastrukturen stetig zu. Ein System mit hoher Komplexität ist anfällig für Fehler oder Ausfälle jedoch erwarten Anwender, dass die Dienste immer verfügbar sind. Darüber hinaus ist eine hohe Verfügbarkeit unerlässlich für die Nutzung von IT Systemen in kritischen Bereichen wie Medizin, Logistik, Energie oder der Fertigungsindustrie. Dort haben Ausfälle, die nicht schnell genug behoben werden, katastrophale Folgen. Die Konsequenz daraus ist, dass Betreiber zunehmend mit der Aufgabe überfordert sind die notwendige Verfügbarkeit zu gewährleisten. Dies erfordert Lösungen, die den Betrieb und die Wartung von komplexen IT Systemen unterstützen. Dafür wird der Einsatz KI-gestützter Methoden erforscht, die die Wartbarkeit, Verfügbarkeit und Zuverlässigkeit von IT Systemen verbessern sollen. Diese werden eingesetzt um Systemkomponenten zu überwachen, die Überwachungsdaten zu analysieren und bei Bedarf automatisch Operationen auszuwählen und auszuführen, um einen effizienten Betriebszustand aufrechtzuerhalten. Durch diese Automatisierung von Wartungs- und Administrationsaufgaben soll eine höhere Robustheit gegenüber Ausfällen realisiert werden. In dieser Arbeit erforschen wir Methoden, die die Verfügbarkeit von IT Systemen erhöhen sollen, indem die notwendige Zeit für die Behebung von Fehlern und Ausfällen reduziert wird. Dazu werden Daten von Systemkomponenten, deren Betriebszustand von einer bekannten Norm abweicht, nach spezifischen Mustern durchsucht. Diese als Anomaliesymptome bezeichneten Muster dienen dazu Fehlerfälle zu identifizieren. Falls diese bereits in der Vergangenheit aufgetreten sind und erfolgreich Behoben wurden, ermöglicht das eine automatisierte und somit schnelle Wiederherstellung eines normalen Systemzustands. Die von uns entwickelten Erkennungsmethoden sind in der Lage Muster, die noch nicht bekannt sind, zu identifizieren und deren Behandlung an menschliche Experten zu delegieren. Dieser "Human-in-the-Loop"- Ansatz stellt eine schrittweise Übertragung des Wissens von menschlichen Experten in unser System dar.
Subject(s): AIOps
reliability engineering
fault tolerance
artificial intelligence
machine learning
technische Zuverlässigkeit
Fehlertoleranz
künstliche Intelligenz
maschinelles Lernen
Issue Date: 2021
Date Available: 30-Dec-2021
Exam Date: 8-Oct-2021
Language Code: en
DDC Class: 004 Datenverarbeitung; Informatik
TU Affiliation(s): Fak. 4 Elektrotechnik und Informatik » Inst. Telekommunikationssysteme » FG Komplexe und Verteilte IT-Systeme
Appears in Collections:Technische Universität Berlin » Publications

Files in This Item:
acker_alexander.pdf
Format: Adobe PDF | Size: 5.18 MB
DownloadShow Preview
Thumbnail

Item Export Bar

This item is licensed under a Creative Commons License Creative Commons