Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-5824
Main Title: Affective analysis of videos
Subtitle: detecting emotional content in real-life scenarios
Translated Title: Affektive Analyse von Videos
Translated Subtitle: Erkennung von emotionalen Inhalten in Real-Life-Szenarien
Author(s): Acar Celik, Esra
Advisor(s): Albayrak, Sahin
Referee(s): Albayrak, Sahin
Yazici, Adnan
Hopfgartner, Frank
Granting Institution: Technische Universität Berlin
Type: Doctoral Thesis
Language Code: en
Abstract: As the amount of available multimedia content becomes more and more abundant, the use of automatic multimedia analysis solutions in order to find relevant semantic search results or to identify illegal content present on the World Wide Web has reached a critical importance. In addition, the advances in digital media management techniques have facilitated delivering digital videos to consumers. Therefore, accessing online video content has become extremely easy. As emotions play an important role for multimedia content selection and consumption in peoples’ daily life, analyzing the emotional content (i.e., affective content) of videos in order to structure mostly unstructured or ill-structured data is of high value. This thesis focuses on the high-level research question of discriminative feature representations and modeling methods for affective content (including violence) analysis of videos, while keeping the domain knowledge about the problem or application at hand to a minimum. Towards addressing this research question, analysis frameworks which let the video data itself construct mid-level steps to narrow the “affective gap” between low-level audio visual elements and high-level semantics are presented. In the first part of the thesis, we first address the issue of feature engineering in the field of video affective content analysis. We present a deep learning architecture to construct audio and static visual higher level representations from raw data instead of handcrafting such higher level representations. Second, a comprehensive analysis of supervised machine learning algorithms for emotional content modeling is performed. Finally, the importance of temporal information for the generation of discriminative analysis models is investigated. In the second part of the thesis, we concentrate on a special case of video affective content analysis: Violence detection. A comprehensive analysis on the discriminative power of different modalities including audio, static and dynamic visual is performed. A “divide-et-impera” approach is presented to model a complex concept (namely, violence) present in videos, where kernel-based and deep learning methods are used as base building blocks. In addition, a “coarse-to-fine” analysis setup is introduced to address the time efficiency of the video analysis process. The effectiveness of the frameworks presented in both parts are discussed with extensive experiments on standard video datasets using official evaluation metrics.
Die Menge an verfügbaren Multimedia-Inhalten wächst ständig. Automatische Multimedia Analyselösungen sind erforderlich, um relevante semantische Suchergebnisse zu finden oder unzulässige Inhalte im World Wide Web zu identifizieren. Darüber hinaus haben Fortschritte im Bereich digitaler Medien-Management-Techniken den Zugriff auf digitale Videos deutlich vereinfacht. Emotionen spielen eine entscheidene Rolle bei Auswahl und Konsum von Multimedia-Inhalten. Dadurch gewinnt die Analyse von emotionalen Inhalten (so genannten affektiven Inhalten) von Videos an Bedeutung für die Strukturierung meist unstrukturierter oder schlecht strukturierter Daten. Diese Dissertation beschäftigt sich mit der Darstellung diskriminativer Merkmale und Modellierungsmethoden von affektiven Inhalten (einschließlich Gewalt) in Videos. Der Fokus liegt mehr auf der übergeordneten Funktionalität als auf dem konkreten Anwendungsfall. Es werden Frameworks zur Analyse von Videodaten betrachtet, die in der Lage sind, die „affektive Lücke“ („affective gap“ auf Englisch) zu schließen, indem sie übergeordnete semantische Repräsentationen aus einfachen audio visuellen Daten ableiten. Der erste Teil der Dissertation befasst sich mit Feature-Engineering im Kontext affektiver Inhaltsanalyse von Videos. Wir stellen eine „Deep Learning“ -Architektur vor, mit deren Hilfe sich automatisch übergeordnete („higher level“ auf Englisch) Darstellungen von Audio und statischem Video aufbauen lassen, ohne dass manuelle Eingaben nötig werden. Danach wird eine umfassende Analyse überwachter maschineller Lernalgorithmen („supervised machine learning“ auf Englisch) zum Modellieren emotionaler Inhalte durchgeführt. Schließlich wird die Bedeutung von zeitlichen Faktoren bei der Erzeugung diskriminativer Analysemodelle untersucht. Der zweite Teil der Dissertation konzentriert sich auf einen speziellen Fall von affektiver Inhaltsanalyse von Videos: Erkennung gewalttätiger Inhalte. Eine umfassende Analyse der Diskriminierungsfähigkeit verschiedener Modalitäten einschließlich Audiomodalität, statischer und dynamischer visueller Modalität wird durchgeführt. Eine „teile und herrsche“ („divide-et-impera“) Lösung zur Modellierung eines komplexen Konzepts (nämlich Gewalt) wird präsentiert, die auf Kernelmethoden und „Deep Learning“ beruht. Zusätzlich wird ein „grob zu fein“ („coarse-to-fine“ auf Englisch) Analyseaufbau zur Zeiteffizienzsteigerung im Videoanalyseprozess eingeführt. Die Wirksamkeit der in beiden Teilen betrachteten Frameworks wird im Zuge der Durchführung umfangreicher Experimente auf anerkannten Multimedia-Datensätzen anhand offizieller Bewertungsmetriken diskutiert.
URI: http://depositonce.tu-berlin.de/handle/11303/6265
http://dx.doi.org/10.14279/depositonce-5824
Exam Date: 10-Jan-2017
Issue Date: 2017
Date Available: 5-Apr-2017
DDC Class: DDC::000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::004 Datenverarbeitung; Informatik
Subject(s): affective computing
emotional content analysis
violence detection
video content analysis
machine learning
maschinelles Lernen
Videoinhaltsanlayse
Usage rights: Terms of German Copyright Law
Appears in Collections:Technische Universität Berlin » Fakultäten & Zentralinstitute » Fakultät 4 Elektrotechnik und Informatik » Institut für Wirtschaftsinformatik und Quantitative Methoden » Publications

Files in This Item:
File Description SizeFormat 
acar_celik_esra.pdf6.43 MBAdobe PDFThumbnail
View/Open


Items in DepositOnce are protected by copyright, with all rights reserved, unless otherwise indicated.