Thumbnail Image

Assessing human depth perception for 2D and 3D stereoscopic images and video and its relation with the overall 3D QoE

Lebreton, Pierre

The work described in this thesis addresses different topics around the visual perception of depth for 2D and 3D stereoscopic images and videos. The thesis starts from the evaluation of Quality of Experience in 3D video sequences. It has been observed that when test participants are asked to rate quality or even Quality of Experience, they may have difficulties to evaluate the concept of QoE. Moreover, it was observed that they do not necessarily provide consistent ratings across test participants, and use the scales (QoE, Visual comfort, and Depth) differently. The issue of consistency, agreement between test participants, and the understanding of the scales by the test participants has been studied in this thesis, since this is a major aspect to be considered. The results have shown that test participants do not necessarily rate 3D as providing a higher QoE than 2D, and therefore do not necessarily take into account the 3D effect in their rating. To overcome this, it was proposed to use an alternative subjective method: paired comparison. Using this method, it has been possible to show the preference of 3D over 2D in specific conditions, and thus the added value related with 3D. The added value of 3D was found to be content-dependent. The preference of 3D over 2D was found to increase with an increase of image quality, but this increase of preference depends on the content properties. To evaluate 3D-QoE, there is a need to characterize 3D video sequences in terms of depth-and content-related features. Since the added value of 3D is to provide additional, binocular depth information, the work has been focused on the evaluation of depth in natural images. First this was done in visual perception tests with test participants, secondly using prediction algorithms. Considering the fact that depth perception results from different depth cues, monocular and binocular ones, different depth-perception tests have been conducted to evaluate the depth in images and videos. However, the questions of the reliability of subjective scores and of the agreement between test participants were raised. It was shown that test participants do not necessarily understand the different scales in the same manner. Therefore, effort has been made on defining depth cues, and different studies have been conducted to evaluate subjective methods and provide simple ways for test participants to evaluate monocular and binocular depth cues in natural images. Based on the subjective score obtained from these tests, new prediction algorithms were designed to characterize the properties of 3D video sequences: the overall perceived depth, as well as the different underlying monocular and binocular depth cues. The accuracy of the prediction algorithm was found to not always be optimal. Therefore, similarly to the analysis of the data based on evaluation from test participants, it has been proposed to study the performance and trust in the different metrics. It has been proposed to study different aspects such as the temporal consistency, image classification, and features of the metrics to enable quantifying the prediction accuracy. From a perception point of view, it has been difficult to draw strong conclusions about the depth perception and the relation between monocular and binocular depth cues. A relationship between monocular and overall depth perception could be found; however, from these data it is not possible to conclude whether the monocular depth cues contribute to the overall depth perception, or if these depth cues affect the image intrinsic properties which then affect the overall perception of the scene. Based on the analyses provided by this research, different lines of future research are identified.
Die vorliegende Arbeit untersucht verschiedene Aspekte der visuellen Tiefen-Wahrnehmung von 2D und 3D stereoskopischen Bildern und Videos. Die Arbeit hat als Ausgangspunkt die Evaluierung der wahrgenommenen Quality of Experience (QoE) in 3D Videosequenzen. Dabei zeigte sich, dass Versuchspersonen beim Bewerten der Qualität oder der Quality of Experience Probleme haben das Konzept der QoE richtig zu bewerten. Ihre Benutzung der vorgegebenen Skala war nicht konsistent zwischen einzelnen Versuchspersonen und sie benutzen die Skalen (QoE, visueller Komfort, Tiefe) unterschiedlich. Das Problem der Konsistenz der Antworten, die Unterschiede zwischen Versuchspersonen und das Verständnis der Skalen durch die Versuchspersonen stellen wichtige Aspekte der vorliegenden Arbeit dar und wurden genauer untersucht. Die Ergebnisse zeigen, dass Versuchspersonen 3D nicht notwendigerweise mit höherer QoE bewerten als 2D und nicht zwingend den 3D Effekt mit in ihre Bewertung einbezogen haben. Um dies zu ändern wurde der Paarvergleich als eine alternative Testmethode vorgeschlagen. Mit dieser Methode war es möglich zu zeigen, dass bestimmte 3D Sequenzen auf Grund des 3D Effektes den entsprechenden 2D Sequenzen vorgezogen wurde. Dieser Gewinn durch den 3D Effekt ist abhängig vom Inhalt der Sequenz. Die Präferenz von 3D über 2D war stärker für Sequenzen mit einer größeren Bildqualität, hing aber gleichzeitig von der Art des Filminhalts ab. Um 3D-QoE zu untersuchen ist eine Charakterisierung der Sequenzen in Form ihrer Tiefen- und Inhalt-Eigenschaften notwendig. Der Gewinn durch den 3D Effekt beruht hauptsächlich auf deren zusätzlichen binokularen Tiefen-Information, daher liegt ein Schwerpunkt der Arbeit auf der Untersuchung von Tiefen-Informationen in natürlichen Bildern. Diese wurde zuerst in Tests mit Versuchspersonen durchgeführt und anschließend mit Algorithmen vorhergesagt. Die Tiefenwahrnehmung beruht auf unterschiedlichen Reizen, monokularen und binokularen, daher waren mehrere Tests notwendig um die Tiefenwahrnehmung von Bildern und Filmen zu untersuchen. Auch hier stellte sich die Frage der Reliabilität der Bewertungen durch die Versuchspersonen und die Übereinstimmung in ihrem Urteil. Das Ergebnis zeigte, dass die Versuchspersonen die verwendeten Skalen nicht notwendigerweise gleich interpretierten. Um dies Problem zu lösen wurden die unterschiedlichen Tiefenreize versucht genauer zu definieren und unterschiedliche Studien wurden durchgeführt um einfache Testmethoden zu finden, mit denen die Versuchspersonen monokulare und binokulare Tiefenwahrnehmung in Bildern zuverlässig bewerten können. Die Ergebnisse aus diesen Tests wurden benutzt um neue Vorhersage-Algorithmen zu entwickeln, die in der Lage sind die 3D Sequenzen zu charakterisieren: die insgesamt wahrgenommene Tiefe, sowie die einzelnen zu Grunde liegenden monokularen und binokularen Tiefenreize. Die Genauigkeit des Vorhersage-Algorithmus war nicht in allen Fällen zufriedenstellend. Daher wurde ähnlich wie für die Ergebnisse aus den Tests mit Versuchspersonen eine Analyse der Zuverlässigkeit und Genauigkeit der verschiedenen verwendeten Metriken durchgeführt. Es wurde dabei auf Aspekte wie die zeitliche Konsistenz, Bildklassifikation und Eigenschaften der Metriken eingegangen um deren Vorhersagegenauigkeit zu quantifizieren. Aus wahrnehmungsbezogener Sicht erwies es sich als schwierig eindeutige Schlüsse über den Zusammenhang zwischen Tiefen-Wahrnehmung und monokularen und binokularen Tiefenreizen zu ziehen. Ein Zusammenhang zwischen monokularer und insgesamt wahrgenommener Tiefe konnte getroffen werden; es konnte jedoch nicht festgestellt werden, ob die monokularen Tiefenreize zur insgesamt wahrgenommen Tiefe beitragen, oder ob diese die Tiefenreize des Bildmaterials beeinflussen, welches dann wiederum die insgesamt wahrgenommene Tiefe beeinflussen. Basierend auf der Analyse dieser Studie werden anschließend unterschiedliche Wege weiterer Forschungsmöglichkeiten aufgezeigt.