Loading…
Thumbnail Image

From Sprites to Global Motion Temporal Filtering

Krutz, Andreas

Videocodierungstechniken haben sich über die letzten Jahrzehnte sehr stark entwickelt. Seit die digitale Videoverarbeitung und -übertragung die analoge Technik abgelöst hat, ist die Komprimierung von Videodaten vor der Übertragung ein sehr wichtiger Bestandteil der gesamten Prozesskette der Videoübertragung. Dabei kamen zusätzlich zu den schon vorhandenen Systemen, wie normale TV-Übertragung und Speichermedien wie DVD oder Bluray-Disk, nun neue Platformen und Geräte, in denen Video angezeigt werden kann dazu. Zwei wichtige Beispiele stellen hier mobile Geräte, wie Handys und mobile Spielkonsolen, und natürlich das Internet dar. Betrachtet man populäre Internet-Platformen, wie z.B. YouTube, Myvideo, Sevenload, etc., ist zu erkennen, wie drastisch die Anzahl der Videodaten heutzutage steigt. Weiterhin erfordert die jüngste Entwicklung von High-Definition TV-Endgeräte natürlich auch High-Definition Inhalt, d.h. Videodaten mit einer höheren Auflösung als der bisher bekannte TV-Standard. Es wurde schon gezeigt, dass der letzte Videocodierungsstandard H.264/AVC, welcher eine überragende Codierungseffizienz bei Videodaten bis zu einer Auflösung des bisherigen TV-Standards hat, durch erweiterte und neue Techniken bei Anwendung auf höher aufgelöstes Videomaterial signifikant verbessert werden kann. All diese Aspekte zeigen, dass das allgemeine fast unvorstellbare Wachstum an digitalem Videodatenmaterial für jegliche Medien eine fortlaufende Forschung und Entwicklung zur Erweiterung bestehender Codierungstechniken und neuen Ansätzen zur effizienten Codierung dieser riesigen Datenmengen erfordert. Dafür wurden einige Ansätze zu Codierung von Video bereits vorgestellt. Die erfolgreichste Technik beinhaltet eine DCT-basierte bewegungskompensierte Prädiktion. Die sogenannte hybride Videocodierung wurde bereits mehrfach in verschiedenen Standardisierungen verarbeitet und befindet sich heutzutage in fast allen Anwendungen, die oben erwähnt wurden. Neben der hybriden Videocodierung wurden alternative Verfahren ebenfalls verfolgt. Eine Modell-basierte'' Methode analysiert zuerst den Videoinhalt, um dann diesen Inhalt in unterschiedliche Objekte zu unterteilen und diese dann separat zu codieren und zu übertragen. Am Empfänger werden die Objekte dann decodiert und wieder zum ursprünglichen Inhalt zusammengesetzt. Diese Technik brachte einen sehr hohen Codiergewinn im Vergleich zum hybriden Ansatz und wurde deshalb auch vor ungefähr zehn Jahren standardisiert. Allerdings hat dieser objektbasierte Ansatz auch große Nachteile, wie z.B. die Objektsegmentierung im Voranalyseschritt und die allgemeine inhaltsabhängige Codiereffizienz. Seit der Standardisierung wurde versucht, diese Technologie fortlaufend zu verbessern. Verbesserungen wurden gezeigt in Bezug auf eine Objektrepräsentation, welche Sprite genannt wird. In einem sogenannten Sprite wird der gesamte Hintergrundinhalt über alle Bilder einer Eingangsvideosequenz zu einem Bild zusammengefasst. Neue und effizientere Algorithmen wurden entwickelt, um solch ein Sprite aufzubauen. Weiterhin wurden die Sprites in Codierungsumgebungen eingebunden, um dadurch Codierverbesserungen im Vergleich zum hybriden Ansatz zu erreichen. Allerdings verbleibt eine signifikante Anzahl an offenen Fragen, um diese Art der Codierung, welche auch Sprite coding'' genannt wird, zur Marktanwendung zu bringen. Deshalb ist die Motivation dieser Dissertation, eine Brücke zwischen dem Sprite coding'' und der hybriden Videocodierung zu bauen, um Vorteile beider Verfahren zu kombinieren und mögliche Nachteile zu minimieren. Es wird damit begonnen, die klassische Spritecodierungstechnik in allen Teilen der gesamten Prozesskette zu verbessern, um maximale Kompressionseffizienz für den klassischen Bereich zu erziehlen. Danach wird die Sprite-basierte Repräsentation in eine Codierumgebung eingebracht, wobei der hybride Standard H.264/AVC zur Codierung verwendet wird. Obwohl H.264/AVC nicht für die Verarbeitung von modell- oder objektbasierter Repräsentation der Eingangsdaten entwickelt wurde, kann eine signifikante Verbesserung der Codiereffizienz bei dieser Codierumgebung gezeigt werden. Weiterhin werden Voranalyseschritte betrachtet, wie z.B. ein Ansatz zu automatischen Objektsegmentierung und Inhaltsanalyse zur Definition, ob der Sprite-basierte Ansatz verwendet werden kann oder nicht. Ergebnisse werden mit bekannten objektiven Metriken zur Bildqualitätsevaluierung erstellt. Dabei werden auch Metriken verwendet, die an die subjektive menschliche Wahrnehmung angepasst sind. Schließlich wird ein Filterdesign vorgestellt, wobei Techniken aus der klassischen Spritegenerierung verwendet werden. Es wird gezeigt, dass dieses Filter großes Potential bei der Anwendung in Codierungsumgebungen, als Nachverarbeitung zur Videoinhaltsverbesserung sowie als Vorverarbeitung für weitere Videoanalysetechniken aufweist.
Video coding techniques have evolved over recent decades. Since digital video representation and transmission have replaced the analogue counterpart, efficient compression of digitized video is a very important topic in the whole processing chain. As well as common TV-broadcast and storage media like DVD or Bluray-Disk, other devices and platforms showing video content have been developed such as handheld devices and, especially, the Internet. Popular internet platforms, e.g. YouTube, Myvideo, Sevenload, etc., have led to the transmission of large amounts of video data. Further, the latest development of High-Definition (HD) displays demands high-definition video content, which means higher resolution video than the common TV-broadcast format. It has been shown that the latest video coding standard H.264/AVC, which has outstanding coding performance for Standard-Definition (SD) resolution, can be significantly improved applying enhanced and new techniques for HD-resolution video content. All these aspects point to a great increase of video data material for all media, requiring ongoing research, development and enhancement of existing techniques and finding new approaches for efficient encoding of this huge amount of data. For that, a number of algorithms has been developed. The most successful technique is DCT-based motion-compensated prediction. This so-called hybrid video coding approach has been the subject matter in various standardization processes and has been used until today in almost all applications described above. Alternative approaches for efficiently encoding video data have also been pursued. One method, which can be described as model-based'', analyzes the video content first, separates the content into objects and codes these separately. After transmission, the separated objects are decoded and merged to the original form. This technique brought very high coding gain in comparison to the hybrid video coding approach and therefore, it was standardized almost ten years ago. However, this object-based'' coding approach has several limitations, e.g. the object segmentation in the pre-analysis step and the content-dependent coding performance. Since the standardization, people have tried to develop techniques to improve this type of coding. Some improvements have been developed considering one object representation called Sprite, where all the background information of an entire video sequence is mapped into one image. New and more efficient algorithms have been developed to build such a Sprite. Furthermore, these Sprite representations have been included in encoding environments to show some improvements comparing to hybrid video encoding. However, a lot of open issues remain for bringing this type of encoding, which was called Sprite coding during the standardization process, to the market. Therefore, the motivation of this thesis is to build a bridge between Sprite coding and the hybrid video coding approach to both combine advantages and minimize disadvantages. It starts with the classical Sprite coding technique. Then, the Sprite-based representation is integrated in a coding environment using the latest standardized video codec, H.264/AVC. Although H.264/AVC is not designed for model- or object-based representations, a significant improvement of coding efficiency is shown using the Sprite-based approach. Further, pre-analysis steps, such as automatic object segmentation and analysis of the content of the video for checking whether the video is appropriate for Sprite coding or not are also examined. Different kinds of visual quality metrics are also used to even emphasize the subjective improvement of videos coded with Sprites. Finally, a filter design will be introduced using techniques inside the Sprite generation, which has a great potential to be used not only in coding environments but also as post-processing for video enhancement or as pre-processing for further video analysis techniques.