Loading…
Thumbnail Image

AI-enabled log analysis for improving IT system dependability

Bogatinovski, Jasmin

Modern IT systems play an indispensable role in industrial infrastructure and affect human society, as billions of users and devices constantly compute, exchange and store data. Their characteristics, such as large complexity, fast evolution, and geo-distributed development, among others, challenge the availability and the correctness of service offerings while increasing failure proneness. Failure to deliver the correct service can have severe implications. This is particularly the case for critical systems in medicine, transportation, or energy, leading to hazardous effects. The increased complexity surpasses the developers’ and operators’ capabilities for timely issue resolution increasing the chance of frequent failure impact. To support the system development and operation, as means to ensure the provisioning of correct service that can justifiably be trusted (system dependability), automation of different tasks is needed. One important aspect of automation is the IT system’s capability to externalise the system state via monitoring data such as system logs. These data are used by intelligent methods that can learn to discern frequent normal and anomalous patterns from the data. Therefore, intelligent methods can automate parts of the development and operational processes, e.g., by generating alerts about potential issues. In this context, Artificial Intelligence for IT operations (AIOps) emerged as a research area concerned with using the system (e.g., source code) and monitoring data (e.g., system logs) and methods from artificial intelligence (AI), big data, machine learning and data mining to support the automation of IT operational activities. This thesis introduces AI-enabled methods that address different AIOps tasks during system development and operation. The methods focus on the logging process and system logs as an intrinsic data source for the IT systems. From a system development perspective, the main contributions reside in formalizing and addressing the problem of log instruction quality, as logs with sufficient quality are a precondition for successfully tackling downstream log-related tasks. (1) The thesis proposes a deep learning-based method to automatically evaluate the quality of log instructions from the system’s source code. From a system operation perspective, the thesis contributes by proposing novel methods for log analysis, specifically, log-based anomaly detection. The log-based anomaly detection methods learn anomaly-related log properties that improve the (2) sentiment and (3) sequential log representations. This category of methods studies how leveraging the individual log properties impacts anomaly detection and classification in modern IT systems. The extensive evaluations with data from open-source, production systems, and testbeds show the usefulness of the proposed methods in addressing the challenges of modern IT systems while demonstrating desirable practical properties. The proposed methods and results were published in peer-reviewed international conferences, while parts were patented at the European Patent Office.
Moderne IT-Systeme spielen eine unverzichtbare Rolle in industriellen Infrastrukturen und beeinflussen menschliche Gesellschaften, da Milliarden von Nutzern und Geräten ständig Daten berechnen, austauschen und speichern. Diese Systeme weisen Merkmale wie hohe Komplexität sowie schnelle und geografisch verteilte Entwicklung auf, womit sie eine Herausforderung für die Verfügbarkeit und Korrektheit von Dienstangeboten darstellen und die Fehleranfälligkeit erhöhen. Wird ein Dienst nicht korrekt erbracht, kann dies schwerwiegende Folgen haben. Dies gilt insbesondere für kritische Systeme in der Medizin, im Transportwesen oder im Energiesektor, was zu gefährlichen Auswirkungen führen kann. Die zunehmende Komplexität übersteigt die Möglichkeiten der Entwickler und Betreiber zur rechtzeitigen Problemlösung und erhöht die Wahrscheinlichkeit häufiger Ausfälle. Zur Unterstützung der Systementwicklung, des Systembetriebs und als Mittel zur Sicherstellung der Bereitstellung eines korrekten Dienstes, dem man berechtigterweise vertrauen kann (Systemzuverlässigkeit), ist die Automatisierung verschiedener Aufgaben erforderlich. Ein wichtiger Aspekt der Automatisierung ist die Fähigkeit des IT-Systems, den Systemzustand über Überwachungsdaten wie System-Logs zu externalisieren. Diese Daten werden von intelligenten Methoden verwendet, die lernen können, normale und anomale Muster aus den Daten zu erkennen. Intelligente Methoden können daher Teile der Entwicklungs- und Betriebsprozesse automatisieren, indem sie z. B. Warnungen oder Korrekturmaßnahmen zu potenziellen Problemen erzeugen. In diesem Zusammenhang hat sich Künstliche Intelligenz für den IT-Betrieb (AIOps) als Forschungsgebiet herauskristallisiert, das sich mit der Nutzung von System- (z. B. Quellcode) und Überwachungsdaten (z. B. System-Logs) und Methoden aus den Bereichen KI, Big Data, maschinelles Lernen und Data Mining beschäftigt, um die Automatisierung von IT-Betriebsaktivitäten zu unterstützen. In dieser Arbeit werden KI-gestützte Methoden vorgestellt, die verschiedene AIOps-Aufgaben während der Systementwicklung und des Betriebs adressieren. Die Methoden konzentrieren sich auf den Log-Prozess und die System-Logs als intrinsische Datenquelle für die IT-Systeme. Aus der Perspektive der Systementwicklung liegen die Hauptbeiträge in der Formalisierung und Behandlung des Problems der Qualität von Log-Instruktionen, da Logs mit ausreichender Qualität eine Voraussetzung für die erfolgreiche Bewältigung nachgelagerter logbezogener Aufgaben sind. (1) Die Arbeit schlägt eine auf Deep Learning basierende Methode zur automatischen Bewertung der Qualität von Log-Anweisungen aus dem Quellcode des Systems vor. Aus Sicht des Systembetriebs leistet die Arbeit einen Beitrag, indem sie neuartige Methoden zur Log-Analyse vorschlägt, insbesondere zur log-basierten Anomalie-Erkennung. Die log-basierten Methoden zur Erkennung von Anomalien lernen anomalitätsbezogene Log-Eigenschaften, die die (2) Sentiment-und (3) sequentielle Darstellung von Logs verbessern. Diese Kategorie von Methoden untersucht, wie sich die Nutzung der individuellen Log-Eigenschaften auf die Anomalieerkennung und -klassifizierung in modernen IT-Systemen auswirkt. Die umfangreichen Auswertungen mit Daten aus Open-Source- und Produktionssystemen sowie Testumgebungen unterstreichen die Nützlichkeit der vorgeschlagenen Methoden bei der Bewältigung der Herausforderungen moderner IT-Systeme und demonstrieren gleichzeitig die wünschenswerten praktischen Eigenschaften. Die vorgeschlagenen Methoden und Ergebnisse wurden von Fachleuten überprüft und auf internationalen Konferenzen in Form von Fachbeiträgen veröffentlicht, sowie in Teilen beim Europäischen Patentamt patentiert.