Loading…
Thumbnail Image

Visual localization in challenging environments

Irmisch, Patrick

Visual localization, the method of self-localization based on camera images, has established as an additional, GNSS-free technology that is investigated in increasingly real and challenging applications. Particularly demanding is the self-localization of first responders in unstructured and unknown environments, for which visual localization can substantially contribute to increase the situational awareness and safety of first responders. Challenges arise from the operation under adverse conditions on computationally restricted platforms in the presence of dynamic objects. Current solutions are quickly pushed to their limits and the development of more robust approaches is of high demand. This thesis investigates the application of visual localization in dynamic, adverse environments to identify challenges and accordingly to increase the robustness, on the example of a dedicated visual-inertial navigation system. The methodical contributions of this work relate to the introduction of semantic understanding, improvements in error propagation and the development of a digital twin. The geometric visual odometry component is extended to a hybrid approach that includes a deep neural network for semantic segmentation to ignore distracting image areas of certain object classes. A Sensor-AI approach complements this method by directly training the network to segment image areas that are critical for the considered visual odometry system. Another improvement results from analyses and modifications of the existing error propagation in visual odometry. Furthermore, a digital twin is presented that closely replicates geometric and radiometric properties of the real sensor system in simulation in order to multiply experimental possibilities. The experiments are based on datasets from inspections that are used to motivate three first responder scenarios, namely indoor rescue, flood disaster and wildfire. The datasets were recorded in corridor, mall, coast, river and fumarole environments and aim to analyze the influence of the dynamic elements person, water and smoke. Each investigation starts with extensive in-depth analyses in simulation based on created synthetic video clones of the respective dynamic environments. Specifically, a combined sensitivity analysis allows to jointly consider environment, system design, sensor property and calibration error parameters to account for adverse conditions. All investigations are verified with experiments based on the real system. The results show the susceptibility of geometric approaches to dynamic objects in challenging scenarios. The introduction of the segmentation aid within the hybrid system contributes well in terms of robustness by preventing significant failures, but understandably it cannot compensate for a lack of visible static backgrounds. As a consequence, future visual localization systems require both the ability of semantic understanding and its integration into a complementary multi-sensor system.
Die visuelle Lokalisierung, die Methode der Selbstlokalisierung anhand von Kamerabildern, hat sich als eine zusätzliche, GNSS-freie Technologie etabliert, die in immer mehr realen und anspruchsvollen Anwendungen untersucht wird. Besonders anspruchsvoll ist die Selbstlokalisierung von Ersthelfern in unstrukturierten und unbekannten Umgebungen, bei der die visuelle Lokalisierung wesentlich dazu beitragen kann, das Situationsbewusstsein und die Sicherheit von Ersthelfern zu erhöhen. Herausforderungen ergeben sich durch den Betrieb auf rechenbeschränkten Plattformen unter widrigen Bedingungen und in Gegenwart dynamischer Objekte. Aktuelle Lösungen stoßen schnell an ihre Grenzen und die Nachfrage nach der Entwicklung von robusteren Ansätzen ist hoch. Diese Arbeit untersucht die Anwendung der visuellen Lokalisierung in widrigen, dynamischen Umgebungen, um Herausforderungen zu identifizieren und die Robustheit der Methode zu erhöhen, am Beispiel eines dedizierten visuell-inertialen Navigationssystems. Die methodischen Beiträge dieser Arbeit beziehen sich auf die Integration des semantischen Verstehens, Verbesserungen in der Fehlerfortpflanzung und die Entwicklung eines digitalen Zwillings. Die geometrische Methode zur visuellen Odometrie wird zu einem hybriden Ansatz weiterentwickelt, in dem markante Bildpunkte auf bestimmten Objektklassen basierend auf einem neuronalen Netz zur semantischen Segmentierung aussortiert werden. Ein entwickelter Ansatz aus dem Bereich der sensornahen künstlichen Intelligenz ergänzt diese Methode, indem das Netz direkt darauf trainiert wird, Bildbereiche zu erkennen, welche für die betrachtete visuelle Odometrie kritisch sind. Eine weitere Verbesserung ergibt sich aus der Analyse und der Modifikation einer bestehenden Fehlerfortpflanzung innerhalb der betrachteten visuellen Odometrie. Außerdem wird ein digitaler Zwilling vorgestellt, der die geometrischen und radiometrischen Eigenschaften des realen Sensorsystems in der Simulation nachbildet mit dem Ziel, die experimentellen Untersuchungsmöglichkeiten zu vervielfachen. Die Experimente basieren vorrangig auf Inspektionsdatensätzen, die verwendet werden, um drei Ersthelferszenarien zu untersuchen, nämlich Rettung in Gebäudekomplexen, Flutkatastrophe, und Waldbrand. Die Datensätze wurden in Flur-, Einkaufszentrum-, Küsten-, Fluss- und Fumarolenumgebungen aufgezeichnet und werden verwendet, um den Einfluss der dynamischen Elemente Person, Wasser und Rauch zu analysieren. Jede Untersuchung beginnt mit einer ausführlichen Analyse in der Simulation auf der Grundlage von synthetischen Videoklonen der jeweiligen dynamischen Umgebungen. Insbesondere ermöglicht die kombinierte Sensitivitätsanalyse die gemeinsame Betrachtung von Umgebungs-, Systemdesign-, Sensoreigenschafts- und Kalibrierungsfehlerparametern, um widrige Bedingungen zu berücksichtigen. Alle Untersuchungen werden durch Experimente am realen System verifiziert. Die Ergebnisse zeigen deutlich die Anfälligkeit von geometrischen Ansätzen für dynamische Objekte in anspruchsvollen Szenarien. Die Einführung des Segmentierungszusatzes innerhalb des hybriden Systems verbessert deutlich dessen Robustheit, indem erhebliche Fehler verhindert werden. Das Fehlen eines sichtbaren, statischen Hintergrunds kann es jedoch verständlicherweise nicht kompensieren. Zukünftige visuelle Lokalisierungssysteme erfordern daher sowohl die Fähigkeit zum semantischen Verständnis als auch die Integration in ein komplementäres Multisensorsystem.