Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-9857
For citation please use:
Main Title: Robust sound event detection in binaural computational auditory scene analysis
Translated Title: Robuste Geräuscherkennung in binauraler automatischer Analyse von akustischen Szenen
Author(s): Trowitzsch, Ivo
Advisor(s): Obermayer, Klaus
Referee(s): Obermayer, Klaus
Kolossa, Dorothea
Sikora, Thomas
Granting Institution: Technische Universität Berlin
Type: Doctoral Thesis
Language Code: en
Abstract: Automatic sound event detection and computational auditory scene analysis gain importance through the increasing prevalence of technical systems operating autonomously or in the background, since such operation requires awareness of the system's environment. In realistic scenes, reliable sound event detection, despite the big improvements of the related automatic speech recognition, still poses a difficult problem: general sounds often are less definable than speech and exhibit less regularities and rules; commonly, many sounds occur simultaneously and in all kinds of acoustic environments. Binaural robotic systems are particularly interesting due to their resemblance of human means, but they are also more limited through the restriction to two microphones, specifically regarding spatial acoustic scene analysis. Spatial hearing figures prominently in humans, but for automatic sound event detection so far has gone mostly unregarded. One of the core objectives running through the entire thesis is the development of fundamental systematic methodology with respect to (a) the building of robust sound event detection models, and (b) the elaborate analysis regarding their application in many different situations --- both is underrepresented in available research publications. In the hereinafter presented studies, sound event detection models are built in different training schemes and evaluated in detail with respect to their performance in various acoustic scene conditions. Analyses are conducted on scenes with one to four co-occurring sound events, with sound-to-sound energy ratios of -20 dB to +20 dB, with different spatial source distributions, and in diverse acoustic environments from anechoic to church aula. It is shown (i) to which extent models that have been trained under specific acoustic conditions specialize to these, and (ii) that even with simple algorithms like logistic regression, through acoustically multifarious training almost optimal performances as achieved by the specialized models can be obtained consistently. The influence of temporal information integration is investigated, and it is shown that algorithms able to model context over longer durations benefit particularly in demanding scenes and get more precise in their detection. Moreover, a method for joining sound event detection and source localization is presented by which coherent auditory objects can be created. The proposed system associates the attributes "sound type" and "source location" successfully; for measuring success of such joint systems -- almost uncharted territory --, performance measures are suggested. It is shown that in an active binaural system spatial sound event detection performance can be increased considerably through suited head orientation. Finally, all developed models get tested in a simulated "online"-robotic system and their potential for forming integral components in computational auditory scene analysis is demonstrated.
Automatische Geräuscherkennung und auditorische Szenenanalyse gewinnt mit der Verbreitung von technischen Systemen, die selbstständig oder im Hintergrund agieren, an Bedeutung, da selbstständiges Wirken ein Bewusstsein der Umgebung voraussetzt. In realistischen Szenen stellt eine zuverlässige Geräuscherkennung trotz der Erfolge in der verwandten Spracherkennung allerdings nach wie vor ein schwieriges Problem dar: Geräusche sind oft weniger prominent abgrenzbar als Sprache und folgen weniger Regeln, und sie treten häufig vielfach überlappend auf und in verschiedensten akustischen Umgebungen. Binaurale robotische Systeme sind auf Grund ihrer Ähnlichkeit mit dem Menschen besonders interessant, aber durch die Begrenzung auf zwei Mikrophone auch eingeschränkter, insbesondere in Hinsicht auf die räumliche akustische Szenenanalyse. Räumliches Hören spielt für den Menschen eine wesentliche Rolle, wurde bis jetzt aber in der automatischen Geräuscherkennung praktisch nicht beachtet. Ein die gesamte Dissertation durchziehendes Kernanliegen ist die Erarbeitung von grundlegender, systematischer Methodik sowohl in Bezug auf die Erstellung von robusten Geräuscherkennungsmodellen, als auch in Bezug auf deren ausführliche Analyse hinsichtlich der Anwendung in verschiedenen Situationen --- beides ist in verfügbaren Forschungsarbeiten unterrepräsentiert. In den im folgenden präsentierten Studien werden Geräuscherkennungsmodelle in verschiedenen Trainingsschemata entwickelt und im Detail bezüglich ihrer Erkennungsleistung in verschiedensten akustischen Szenenkonfigurationen evaluiert. Analysen finden über Szenen mit ein bis vier gleichzeitig aktiven Geräuschen, mit Geräusch-zu-Geräusch-Energieverhältnissen von -20 dB bis +20 dB, mit verschiedenen räumlichen Quellenverteilungen, und in verschiedenen akustischen Umgebungen von reflexionsfrei bis Kirchensaal statt. Es wird gezeigt, (i) wie stark Modelle, die unter bestimmten akustischen Bedingungen trainiert werden, sich auf diese spezialisieren, und (ii) dass selbst mit einfachen Algorithmen wie der logistischen Regression durch akustisch möglichst mannigfaltiges Training fast durchgehend optimale Erkennungsleistungen wie von den spezialisierten Modellen erreichbar sind. Der Einfluss von temporaler Informationsintegration wird untersucht, und gezeigt, dass Algorithmen, die einen Kontext über längere Zeiträume modellieren können, davon speziell in herausfordernden Szenen stark profitieren und präziser in ihrer Erkennung werden. Schließlich wird eine Methode zur Verbindung von der Geräuscherkennung mit einer Quellenlokalisierung vorgestellt, mit der auditorische Objekte mit kohärenten Attributen erzeugt werden können. Das präsentierte System verknüpft die Attribute "Geräuschtyp" und "Quellenort" erfolgreich; zur Bemessung des Erfolgs eines solchen kombinierten Systems -- fast komplettes Neuland -- werden Leistungsmaße vorgeschlagen. Es wird gezeigt, dass in einem aktiven binauralen System die räumliche Erkennung durch passende Orientierung des Kopfes erheblich gesteigert werden kann. Final werden alle entwickelten Modelle in einem simulierten "online"-Robotiksystem getestet und gezeigt, dass sie wie vorhergesagt funktionieren und integrale Bestandteile einer automatischen auditorischen Szenenanalyse darstellen können.
URI: https://depositonce.tu-berlin.de/handle/11303/10967
http://dx.doi.org/10.14279/depositonce-9857
Exam Date: 19-Nov-2019
Issue Date: 2020
Date Available: 11-May-2020
DDC Class: 004 Datenverarbeitung; Informatik
006 Spezielle Computerverfahren
600 Technik, Technologie
Subject(s): sound event detection
computational auditory scene analysis
machine learning
audio robotics
Geräuscherkennung
automatische Analyse akustischer Szenen
maschinelles Lernen
auditive Robotik
License: https://creativecommons.org/licenses/by-nc-nd/4.0/
Appears in Collections:FG Neuronale Informationsverarbeitung » Publications

Files in This Item:
trowitzsch_ivo.pdf
Format: Adobe PDF | Size: 6.02 MB
DownloadShow Preview
Thumbnail

Item Export Bar

This item is licensed under a Creative Commons License Creative Commons