Loading…
Thumbnail Image

Pedestrian tracking-by-detection for video surveillance applications

Eiselein, Volker

This dissertation presents new approaches and methods for the application of tracking-by-detection algorithms for pedestrian tracking in video surveillance scenarios with static cameras. Using a modular state-of-the-art tracking-by-detection framework based on a Gaussian Mixture Probability Hypothesis Density (GM-PHD) Filter, this work analyzes the challenges of tracking pedestrians in surveillance and develops approaches to deal with them. On the detector side, filters based on local crowd density and geometric priors are proposed in order to improve pedestrian detection in crowds. Compared to the baseline, these filters reduce bad detections and allow for adaptive dynamic thresholding in the detection process, thus enhancing the detection results. To improve the tracking process in ambiguous scenarios, feature-based label trees are proposed which maintain a visual model of the tracked objects and allow their re-identification after crossing situations. Performance improvements to the baseline are shown both in simulation and practical experiments. Further tracker improvements include extensions to enable the usage of multiple, complementary detectors in the framework and the proposal of a novel update step which is independent of the sensor order. A theoretical justification and practical validation in experiments show that this method yields better results for visual tracking than the individual sensors or the commonly used iterated corrector approach. The mathematical concept of a critical path of missed detections inspires the usage of motion cues for post-filtering detections in order to improve the tracking further. The proposed filtering concept is modular and independent of the detector used. Thanks to a reduction of missed detections it improves both the detection and tracking results which is shown on different data sets. In order to enable further integration of visual information cues into the tracking framework, three different runtime-efficient person re-identification methods and their parametrization are also assessed on four different datasets in this work and integrated into a powerful multi-cue re-identification method. Therefore, different greedy and non-greedy fusion strategies are validated. In order to improve the comparison of region covariance features, the baseline metric is extended by a novel pre-processing step in order to ensure the full rank of the covariance matrix. This reduces bad metric results by rank issues and improves the re-identification process.
Diese Arbeit behandelt neue Ansätze für die visuelle Objektverfolgung in Videoüberwachungsanwendungen mit Hilfe des Tracking-by-detection-Prinzips. Ausgehend von einem Gaussian Mixture Probability Hypothesis Density Filter als Beispielverfahren werden Probleme und Schwierigkeiten analysiert, die bei seiner Anwendung für die Videoüberwachung mit statischen Kameras entstehen, und es werden Ansätze entwickelt, diesen entgegenzuwirken. Um die Ergebnisse auf der Sensorebene zu verbessern, werden Filter vorgeschlagen, die anhand von lokaler Menschenmengendichte und geometrischen Nebenbedingungen falsche Detektionen reduzieren und durch adaptive dynamische Schwellenwerte bessere Detektionsergebnisse erzielen. Für die Verfolgung sich kreuzender Objekte wird eine Erweiterung der Label-Bäume vorgeschlagen, die mittels eines Modells der verfolgten Objekte die spätere korrekte Zuordnung der Objekte ermöglicht. Simulationen und praktische Experimente zeigen, dass diese Integration visueller Merkmale in die Label-Bäume Performance-Verbesserungen erzielt. Weitere vorgeschlagene Verbesserungen in dieser Arbeit sind die Integration mehrerer Detektoren zur Erhöhung der Detektionswahrscheinlichkeit mittels eines neuartigen Korrektorschritts. Im Gegensatz zum bisher üblichen iterierten Korrektorschritt ist die Sensorreihenfolge beim entwickelten Verfahren egal, und die Performance wird verbessert, was theoretisch und durch Experimente gezeigt wird. Das Konzept eines kritischen Pfads von Fehldetektionen inspiriert die Nutzung von Bewegungsinformationen für die Nachfilterung von Detektionen, um die Objektverfolgung weiter zu verbessern. Dieser Ansatz ist modular und unabhängig vom Detektionsalgorithmus einsetzbar. Dank einer Reduzierung der Fehldetektionen verbessert es sowohl die Objektdetektion als auch die -verfolgung, was auf mehreren Datensätzen gezeigt wird. Für eine Integration weiterer visueller Informationen in das Objektverfolgungssystem werden zusätzlich in dieser Arbeit laufzeiteffiziente Verfahren zur Personenwiedererkennung evaluiert und mittels verschiedener Fusionsmethoden in ein Multideskriptorsystem kombiniert. Um Fehler durch die Vergleichsmetrik der verwendeten Region Covariance-Methoden auszuschließen, wird das bisherige Verfahren um einen neuen Vorverarbeitungsschritt erweitert, der den vollen Rang der Matrizen sicherstellt und so die Wiedererkennung verbessert.