Loading…
Thumbnail Image

Scalable and efficient distributed self-healing with self-optimization features in fixed IP networks

Tcholtchev, Nikolay

The Internet is continuously gaining importance in our society. Indeed, the Internet is slowly turning into the backbone of the modern world, having impact on all possible aspects, such as politics, communication, intercultural exchange, and emergency services, to give some examples. As these aspects are developing, the technical infrastructure around the Internet’s core protocol - IP (Internet Protocol) - is increasingly exposed to various challenges. One of these challenges is given by the requirement for sophisticated resilience mechanisms that can guarantee the robustness of the IP infrastructure in case of faults, failures, and natural disasters. This dissertation aims to develop a new architectural framework for improving the resilience of network nodes in fixed IP network infrastructures, i.e. IP networks without any mobility and continuously changing physical topology. The current thesis approaches the topic of resilience from two different perspectives. First, it is recognized that resilient self-healing mechanisms are already embedded inside diverse network protocols, as well as in applications and services running on top of a fixed IP network. Secondly, the importance of network and systems management processes for the availability of the network and IT infrastructure is also analyzed. This leads to the identification of a gap between the resilient features which are intrinsically embedded inside the protocols and applications, on one hand, and the network and systems management processes, on the other hand. This gap is constituted by the lack of a framework that runs on top of the protocols and applications and manages them with respect to incidents, thereby automating aspects of the established management standards. In addition, this framework is meant to serve as a layer between the network/system’s administrator and the networked infrastructure. That is, on one hand, the framework is configured and provided with knowledge by the human experts tweaking and improving the system. On the other hand, the framework is designed to escalate faulty conditions, which it is not able to resolve, to the operations personnel, such that responsive managerial actions can be initiated. The architectural framework consists of software components that operate in a distributed manner inside the nodes of the networked system in question. These software components are able to proactively and reactively respond to faulty conditions, i.e. on one hand failures are predicted and avoided, and on the other hand, an automatic response to already existing faulty conditions is realized. To evaluate the concepts and mechanisms, a number of case studies are executed. Additionally, the scalability and overhead (e.g. memory consumption) of the proposed framework are evaluated. Furthermore, the framework and algorithms are designed in a way that enables the realization of real-time self-healing whereby the reaction strategy is always optimized such that key performance indicators of the networked system are improved.
Das Internet gewinnt in unserer Gesellschaft kontinuierlich an Bedeutung. In der Tat verwandelt sich das Internet in das Rückgrat der modernen Welt, mit Auswirkungen auf zahlreiche Aspekte wie Politik, Kommunikation, interkultureller Austausch und Notdienste, um einige Beispiele zu nennen. Die Weiterentwicklung dieser Bereiche stellt die technische Struktur des Internets – insbesondere das Internet Protokoll (IP) - zunehmend vor verschiedene Herausforderungen. Aus diesen Herausforderungen ergibt sich unter anderem die Notwendigkeit für skalierbare und effiziente Selbstheilungsmechanismen, die in den darunterliegenden Netzen zu integrieren sind. Das Ziel dieser Selbstheilungsmechanismen besteht in der Gewährleistung von Robustheit und Widerstandsfähigkeit der IP-Infrastruktur bei Störungen, Angriffen und Naturkatastrophen. Diese Dissertation setzt sich als Ziel, eine Softwarearchitektur zu entwickeln, durch die eine Verbesserung der Widerstandsfähigkeit von Netzwerkknoten in festen IP-Netzwerkinfrastrukturen realisiert werden kann, das heißt IP-Netzwerke ohne Mobilität und kontinuierlich wechselnde physikalische Topologie. Die Dissertation betrachtet das Thema der Widerstandsfähigkeit aus zwei verschiedenen Perspektiven. Zuerst wird analysiert und festgestellt, dass dynamische Selbstheilungsmechanismen bereits in diversen Netzwerkprotokollen sowie in Anwendungen und Diensten, die in einem festen IP-Netzwerk laufen, eingebettet sind. Im Anschluss daran wird die Bedeutung von etablierten Netzwerk- und Systemmanagementprozessen für die Verfügbarkeit von Netzwerk- und IT-Infrastruktur analysiert. Dies führt zur Identifizierung einer Lücke zwischen den dynamischen Selbstheilungs- und Robustheitsmechanismen, die einerseits in den Netzwerkprotokollen und Anwendungen/Diensten und andererseits in den etablierten Netzwerk- und Systemmanagementprozessen eingebettet/integriert sind. Die Lücke besteht darin, dass es an einer Softwarearchitektur fehlt, die on-top der Netzwerkprotokolle und Anwendungen läuft, diese in Bezug auf Vorfälle verwaltet und damit die Aspekte der etablierten Management-Standards im Sinne eines Selbstheilungsprozesses automatisiert. Darüber hinaus soll dieses Framework als Zwischenschicht zwischen dem Netzwerk-/Systemadministrator und der Netzwerk-/Dienstinfrastruktur dienen. Das heißt, einerseits wird das Framework konfiguriert und mit Kenntnissen der Experten/Administratoren ausgestattet, die das Netzwerk/System ausbauen, pflegen und detailliert kennen. Andererseits ist die anvisierte Softwarearchitektur so konzipiert, dass sie Störungen, die sie nicht lösen kann, an die Mitarbeiter des Network Operations Center (NOC) eskaliert. Die NOC-Mitarbeiter sind anschließend in der Lage entsprechende Aktivitäten einzuleiten, um das bestehende Netzwerkproblem zu behandeln, das von dem anvisierten Framework nicht gelöst werden konnte. Die vorgeschlagene Architektur besteht aus Softwarekomponenten, die in verteilter Weise innerhalb der Knoten des betreffenden vernetzten Systems arbeiten. Diese Softwarekomponenten sind in der Lage, proaktiv und reaktiv auf fehlerhafte Zustände zu reagieren, das heißt einerseits werden Ausfälle vorhergesagt und vermieden, während andererseits eine automatische Antwort auf bereits vorhandene fehlerhafte Bedingungen realisiert wird. Zur Bewertung der vorgeschlagenen Konzepte und Mechanismen wird eine Reihe von Fallstudien durchgeführt. Zusätzlich werden die Skalierbarkeit und der Overhead (z.B. Speicherverbrauch) der vorgeschlagenen Softwarearchitektur ausgewertet. Darüber hinaus sind das Framework und die zugehörigen Algorithmen so konzipiert, dass die Realisierung von Echtzeit-Selbstheilung möglich ist. Dabei wird die Reaktionsstrategie des Frameworks immer so optimiert, dass wichtige Leistungsindikatoren des vernetzten Systems verbessert werden.