Loading…
An extended 3D morphable face model with applications in experimental psychology
Grewe, Carl Martin
Our faces and facial expressions are an important means of communication and social interaction. One goal of the behavioral sciences is to better understand how the features of the faces that we look at influence our behavior. These include static features like facial proportions or the shape and color of certain parts of a face which primarily constitute facial identity, as well as dynamic movements resulting from the activation of the mimic musculature. Experimental psychology provides an empirical approach to this endeavor.
In experiments, participants are typically exposed to images or videos of realistic faces with specifically controlled features. By analysis of the reactions to such stimuli, conclusions can be drawn about the influence of facial features on the participants' behavior.
Psychologists today mostly generate face stimuli with the help of digital tools. Image editing with Photoshop is highly flexible, but also time-consuming and subjective. Using tools like Psychomorph or Fantamorph is easier and more objective, but does not allow specific control over facial features. In contrast, stimulus generation with 3D Morphable Face Models (3DMMs) offers a better balance between objectivity, ease of use, and flexibility. 3DMMs are statistical models which have been determined from 3D scans of real people's faces and facial expressions. After these training scans have been brought into correspondence, methods like Principal component analysis (PCA) can be used to determine the major modes of variation of facial shape and texture in the data. Such modes typically vary the overall facial proportions, expressions, or skin color. They can be individually controlled and flexibly combined to generate new faces and facial expressions. The plausibility of the generated faces can be ensured by having the mode combinations follow the multivariate distribution of the training data.
3DMMs have been mostly used by psychologists for the generation of stimulus images of faces with neutral expression. Static and dynamic stimuli of facial expressions are also of great interest, but generation with 3DMMs is less common. A problem is that the majority of current 3DMMs can only generate facial movements according to the six prototypic expressions of anger, disgust, fear, happiness, sadness, and surprise.
More diverse or subtle expressions are often impossible. Among other reasons, this is due to the difficulty in establishing accurate correspondence in the training data. Further, the modes of most 3DMMs were created by means of PCA. These modes often lack interpretability, fail to generate facial details, and rarely provide psychologists a specific control over identity or expression features. Some 3DMMs also generate subtle artifacts that might lead to undesired effects during face perception. They are also less realistic than faces which were designed by artistic experts for recent computer games and animated movies. Last but not least, current 3DMMs have probably not yet been used for interactive experiments in Virtual Reality (VR) for technical reasons.
Although they provide many advantages also beyond the generation of static or dynamic stimuli, the limitations of current 3DMMs have so far prevented a widespread usage in experimental psychology. The goal of this dissertation is to foster the creation and usage of 3DMMs in this context. To this end, we make three major contributions.
First, we describe a matching method that establishes correspondence for 3D face scans with a very high accuracy. Unlike the most commonly used methods, it transforms the facial features into a 2D intermediate representation so that they can be aligned to a reference using image registration. We perform experiments with a large database of 3D scans of faces and facial expressions showing that our method outperforms previous approaches.
Second, the 3D scans which were previously brought into correspondence are used for the creation of a 3DMM whose resolution is an order of magnitude higher than that of most existing models. We learn a variety of meaningful modes that, e.g., vary features only in specific regions of the face, or that are related to demographic factors such as ethnicity and age. Further, modes of local facial movements are established that can be flexibly combined into a large variety of expressions. We evaluate the quality of the newly created 3DMM in two experiments. Our results show its advantages over previous models, especially the higher degree of realism of dynamic stimuli of facial expressions which were created with our model.
Third, we demonstrate that 3DMMs can not only be used for the generation of stimuli. We develop two experimental methods that are readily applicable in experimental psychology. Initially, we create 3D avatar faces with our 3DMM that are readily applicable in VR. They are used in a new open source framework for virtual mirror experiments on self-face perception. A study is conducted which demonstrates the advantages of the framework over previous methods. Furthermore, our 3DMM is used to create a method for improved control of facial asymmetry in existing stimulus photographs. We show that the method accounts for different dimensions of facial asymmetry and is less sensitive than previous approaches to extrinsic factors like the posture of the head. The different methods are evaluated in a study investigating the influence of facial asymmetry on ratings of attractiveness, femininity, and masculinity. The results indicate the benefits and validity of our method.
Unsere Gesichter und Gesichtsausdrücke sind zentraler Bestandteil von Kommunikation und sozialer Interaktion. Ein Ziel der Verhaltenswissenschaften ist ein besseres Verständnis darüber, wie die Merkmale der Gesichter, die wir betrachten, unser Verhalten beeinflussen. Dazu gehören statische Merkmale wie die Gesichtsproportionen oder die Form und Farbe bestimmter Gesichtspartien, welche maßgeblich die Identität des Gesichts bestimmen, als auch dynamische Bewegungen die durch Aktivierung der mimischen Muskulatur entstehen. Die experimentelle Psychologie bietet einen empirischen Ansatz für solche Untersuchungen. In Experimenten werden den Teilnehmer:innen typischerweise Bilder oder Videos von realistischen Gesichtern mit spezifisch kontrollierten Merkmalen gezeigt. Durch die Analyse der Reaktionen auf die Reize können Rückschlüsse über den Einfluss der Merkmale auf das Verhalten der Teilnehmer:innen gezogen werden.
Psycholog:innen erzeugen Gesichtsreize heute meist mit Hilfe digitaler Werkzeuge. Die Bildbearbeitung mit Software wie Photoshop ist zwar sehr flexibel, zugleich aber auch zeitaufwendig und subjektiv. Die Verwendung von Werkzeugen wie Psychomorph oder Fantamorph ist einfacher und objektiver, erlaubt aber keine spezifische Kontrolle über die Gesichtsmerkmale. Im Gegensatz dazu bietet die Stimuluserzeugung mit 3D Morphable Face Models (3DMMs) ein besseres Gleichgewicht zwischen Objektivität, Benutzerfreundlichkeit und Flexibilität. 3DMMs sind statistische Modelle, die aus 3D-Gesichtsscans von realen Menschen gelernt werden. Nachdem die Trainingsdaten in Korrespondenz gebracht wurden, können Methoden wie die Hauptkomponentenanalyse angewandt werden, um die Hauptmodi der Form und Texturvariation aus den Daten zu ermitteln. Diese Modi variieren z.B. die Gesichtsproportionen, den Ausdruck, oder die Hautfarbe. Sie können individuell kontrolliert und flexibel kombiniert werden um neue Gesichter und Gesichtsausdrücke zu erzeugen. Die Plausibilität der generierten Gesichter kann dadurch sichergestellt werden, dass die Kombination der Modi der multivariaten Verteilung der Trainingsdaten folgt.
Bisher wurden 3DMMs von Psycholog:innen meist für die Erzeugung von Stimulusbildern verwendet, die Gesichter mit neutralem Ausdruck zeigen. Zwar sind statische und dynamische Stimuli für die experimentelle Psychologie ebenfalls von großem Nutzen, aber deren Erzegung mit 3DMMs ist weniger verbreitet. Ein Problem besteht darin, dass die meisten derzeit verfügbaren 3DMMs nur Gesichtsbewegungen entsprechend der sechs prototypischen Ausdrücken Wut, Ekel, Angst, Freude, Traurigkeit und Überraschung erzeugen können. Vielfältigere oder subtilere Ausdrücke sind oft nicht möglich. Dies liegt unter anderem daran, dass die Erzeugung von genauer Korrespondenz in den Trainingsdaten schwierig ist. Außerdem wurden die Modi der meisten 3DMMs durch Hauptkomponentenanalyse ermittelt. Diesen Modi sind meist nur schwer zu interpretieren, können keine Gesichtsdetails erzeugen und bieten Psychologen kaum Möglichkeit zur spezifischen Kontrolle der Identitäts- oder Ausdrucksmerkmale. Einige 3DMMs erzeugen auch subtile Artefakte, die zu unerwünschten Effekten in der Wahrnehmung führen können. Sie sind auch weniger realistisch als Gesichter die von Designern für aktuelle Computerspiele und Animationsfilme entworfen wurden. Nicht zuletzt wurden derzeitige 3DMMs wahrscheinlich aus technischen Gründen noch nicht für interaktive Experimente in virtual reality (VR) verwendet.
Obwohl sie viele Vorteile auch über der Erzeugung statischer oder dynamischer Stimuli hinaus bieten, haben die oben genannten Einschränkungen bisheriger 3DMMs eine weite Verbreitung in der experimentellen Psychologie verhindert. Das Ziel dieser Dissertation ist es, die Entwicklung und Verwendung von 3DMMs in diesem Bereich zu fördern. Zu diesem Zweck leisten wir drei wichtige Beiträge.
Zunächst beschreiben wir eine Methode, die Korrespondenz zwischen 3D Gesichtsscans mit sehr hoher Genauigkeit herstellt. Im Gegensatz zu den am häufigsten verwendeten Methoden werden die Gesichtsmerkmale in eine 2D Darstellung überführt, sodass sie mittels Bildregistrierung an eine Referenz angepasst werden können. Experimente auf Basis einer großen Datenbank aus 3D Gesichts- und Gesichtsausdrucksscans zeigen die Vorteile unserer Methode gegenüber bisherigen Ansätzen.
Als Zweiteswerden die zuvor in Korrespondenz gebrachten Gesichtssscans verwendet, um ein 3DMM zu erstellen, dessen Auflösung um eine Größenordnung höher ist als die der meisten bisherigen Modelle. Wir lernen eine Vielzahl sinnvoller Modi, die zum Beispiel nur Merkmale in bestimmten Gesichtsregionen variieren oder mit demografischen Faktoren wie ethnischer Herkunft und Alter zusammenhängen. Darüber hinaus werden Modi für lokale Gesichtsbewegungen ermittelt, die sich flexibel zu einer Vielzahl von Ausdrücken kombinieren lassen. Die Qualität des neu erstellten 3DMM wird in zwei Experimenten überprüft. Unsere Ergebnisse zeigen dessen Vorteile gegenüber früheren Modellen, insbesondere den höheren Grad an Realismus von statischen und dynamischen Gesichtsstimuli die mit unserem Modell erstellt wurden.
Drittens demonstrieren wir, dass 3DMMs nicht nur für die Erzeugung von statischen und dynamischen Stimuli verwendet werden kann. Dazu werden zwei Methoden für die experimentelle Psychologie entwickelt. Zunächst verwenden wir unserer 3DMM zur Erzeugung von 3D Avatargesichtern für VR Anwendungen. Diese werden zur Entwicklung eines neuen Open Source-Frameworks genutzt, dass für virtuelle Spiegel-Experimente zur Wahrnehmung des eigenen Gesichts eingesetzt werden kann. Eine Studie zeigt die Vorteile des Frameworks gegenüber früheren Methoden. Des weiteren wird unser 3DMM zur Entwicklung einer Methode verwendet, welche die Kontrolle von Gesichtsasymmetrie in bestehenden Stimulusfotos verbessert. Wir zeigen, dass unsere Methode verschiedene Dimensionen der Gesichtsasymmetrie erfasst und weniger von extrinsischen Faktoren wie der Kopfhaltung beeinflusst wird als bisherige Ansätze. Die verschiedenen Methoden werden in einer Studie evaluiert, die den Effekt von Gesichtsasymmetrie auf die Bewertung von Attraktivität, Weiblichkeit und Männlichkeit untersucht. Die Ergebnisse zeigen die Vorteile und Validität unserer Methode.