Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-5082
Main Title: Microphone arrays and sound field decomposition for dynamic binaural recording
Translated Title: Mikrofonarrays und Schallfeldzerlegung für die dynamische Binauralaufnahme
Author(s): Bernschütz, Benjamin
Advisor(s): Weinzierl, Stefan
Referee(s): Weinzierl, Stefan
Pörschmann, Christoph
Spors, Sascha
Granting Institution: Technische Universität Berlin
Type: Doctoral Thesis
Language Code: en
Abstract: This thesis discusses a field-related recording technique based on microphone arrays and orthogonal sound field decomposition that delivers a suitable description for dynamic binaural reproduction. Dynamic binaural reproduction refers to a mostly headphone-based reproduction method that allows for presenting localizable virtual sources and accounts for the head movements of the recipient in order to decouple them from the spatial orientation of the virtual auditory scene. Increased source localization and externalization stability can be regarded as primary advantages compared to classic static binaural reproduction. Spatially stationary or dynamic virtual sound sources can be presented that maintain their spatial positions or move in relation to a fixed external world coordinate system, which is independent from the recipient's head movements. Dynamic binaural reproduction requires either object-based audio production or specific field-related recording techniques. The focus of this thesis lies on the latter. Using microphone arrays paired with orthogonal sound field decomposition appears to be a particularly promising approach for field-related dynamic binaural recording. It is based on an elegant, closed-form mathematical solution and allows accounting for head-tracking in all rotational degrees-of-freedom during the playback of a recorded auditory scene. Theoretically, even translation of the recipient can be considered. The method inherently comprises individualization capabilities by employing individual head-related transfer functions (HRTFs) and allows for point-to-multipoint distribution. Due to the close mathematical relationship with higher-order Ambisonics (HOA), the respective formats and codecs can be used for storage and distribution of the audio data. The theoretical mathematical approach under ideal physical conditions is discussed and a closed-form solution is derived. Due to constraints in technical systems, such as discrete spatial sampling or noise in the signal paths for instance, ideal conditions cannot be maintained in practice. The major constraints are pointed out and their specific impact is analyzed and assessed. Various approaches for improving the transmission characteristics of the system are proposed and evaluated. The perceptual properties under dedicated technical constraints and realistic conditions are assessed in listening experiments. Optimal technical parameters for the system are also determined. It turns out that an array-based system for dynamic binaural recording with satisfying perceptual properties can be realized within reasonable technological and economical limits.
Die Dissertation behandelt ein feldbezogenes räumliches Audioaufnahmeverfahren, das auf Mikrofonarrays und orthogonaler Schallfeldzerlegung beruht und eine geeignete Beschreibung für dynamische binaurale Wiedergabe liefert. Dynamische binaurale Wiedergabe bezeichnet ein meist kopfhörerbasiertes räumliches Audiowiedergabeverfahren zur Darbietung lokalisierbarer virtueller Schallquellen, das die Kopfbewegung des Rezipienten berücksichtigt, um sie von der räumlichen Orientierung der wiedergegeben virtuellen auditorischen Szene zu entkoppeln. Die wesentlichen Vorteile gegenüber statischer binauraler Wiedergabe bestehen in einer verbesserten Lokalisation und Externalisierung der virtuellen Quellen, sowie der Möglichkeit, statische oder dynamische virtuelle Quellen wiederzugeben, die unabhängig von der Kopfbewegung des Rezipienten ortsfest verbleiben oder sich in Bezug zu einem statischen weltbezogenen Koordinatensystem bewegen. Dynamische binaurale Wiedergabe setzt entweder objektbasierte Audioproduktion oder spezifische feldbezogene Aufnahmeverfahren voraus. Letztere liegen im Fokus dieser Arbeit. Der Einsatz von Mikrofonarrays in Kombination mit orthogonaler Schallfeldzerlegung stellt hierzu einen vielversprechenden Lösungsansatz dar. Das Verfahren beruht auf einer eleganten mathematisch geschlossenen Lösung. Kopfbewegungen des Rezipienten können in allen rotatorischen Freiheitsgraden berücksichtigt werden. In der Theorie lassen sich auch translatorische Freiheitsgrade einbeziehen. Durch Einsatz individueller kopfbezogener Übertragungsfunktionen (HRTFs) kann die Wiedergabe individualisiert werden. Das Verfahren eignet sich für Punkt-zu-Mehrpunkt Übertragung. Aufgrund enger mathematischer Verwandtschaft zum higher-order Ambisonics (HOA) Verfahren, lassen sich die dort eingesetzten Formate und Codecs zur Speicherung und Übertragung der Audiodaten nutzen. Unter Annahme idealer physikalischer Bedingungen wird zunächst der theoretische Ansatz diskutiert und eine mathematisch geschlossene Lösung abgeleitet. Aufgrund verschiedener Einschränkungen in technischen Systemen, wie beispielsweise raumdiskrete Abtastung oder Rauschen in den Signalwegen, sind in der Praxis allerdings keine idealen Bedingungen erzielbar. Die wichtigsten Einschränkungen werden aufgezeigt und ihr jeweiliger Einfluss auf das Systemverhalten untersucht. Verschiedene Methoden zur Verbesserung der Übertragungseigenschaften werden diskutiert. In Hörversuchen werden perzeptive Eigenschaften des Systems im Hinblick auf spezifische technische Einschränkungen sowie realistische Bedingungen evaluiert. Ferner werden optimale Systemparameter ermittelt. Es zeigt sich, dass arraybasierte Systeme für die feldbezogene dynamische Binauralaufnahme mit guten perzeptiven Eigenschaften unter vertretbarem technischen und wirtschaftlichen Aufwand realisierbar sind.
URI: http://depositonce.tu-berlin.de/handle/11303/5407
http://dx.doi.org/10.14279/depositonce-5082
Exam Date: 15-Feb-2016
Issue Date: 2016
Date Available: 8-Apr-2016
DDC Class: DDC::620 Ingenieurwissenschaften
DDC::621 Angewandte Physik
Subject(s): microphone arrays
sound field decomposition
binaural technology
spatial audio
sound recording
mikrofonarrays
Schallfeldzerlegung
Binauraltechnik
3D-Audio
Aufnahmetechnik
Sponsor/Funder: BMBF, 1707X08, Analysis and Synthesis of the Directional Acoustic Properties of Rooms (ASAR)
BMBF, 17009X11, Microphone Arrays for Room Acoustics and Auralization (MARA)
Creative Commons License: https://creativecommons.org/licenses/by/4.0/
Appears in Collections:Technische Universität Berlin » Fakultäten & Zentralinstitute » Fakultät 1 Geistes- und Bildungswissenschaften » Institut für Sprache und Kommunikation » Publications

Files in This Item:
File Description SizeFormat 
bernschütz_benjamin.pdf14,75 MBAdobe PDFThumbnail
View/Open


Items in DepositOnce are protected by copyright, with all rights reserved, unless otherwise indicated.