Robust sound event detection in binaural computational auditory scene analysis

Trowitzsch, Ivo

Robust sound event detection in binaural computational auditory scene analysis

dc.contributor.advisor	Obermayer, Klaus
dc.contributor.author	Trowitzsch, Ivo
dc.contributor.grantor	Technische Universität Berlin	en
dc.contributor.referee	Obermayer, Klaus
dc.contributor.referee	Kolossa, Dorothea
dc.contributor.referee	Sikora, Thomas
dc.date.accepted	2019-11-19
dc.date.accessioned	2020-05-11T14:28:30Z
dc.date.available	2020-05-11T14:28:30Z
dc.date.issued	2020
dc.description.abstract	Automatic sound event detection and computational auditory scene analysis gain importance through the increasing prevalence of technical systems operating autonomously or in the background, since such operation requires awareness of the system's environment. In realistic scenes, reliable sound event detection, despite the big improvements of the related automatic speech recognition, still poses a difficult problem: general sounds often are less definable than speech and exhibit less regularities and rules; commonly, many sounds occur simultaneously and in all kinds of acoustic environments. Binaural robotic systems are particularly interesting due to their resemblance of human means, but they are also more limited through the restriction to two microphones, specifically regarding spatial acoustic scene analysis. Spatial hearing figures prominently in humans, but for automatic sound event detection so far has gone mostly unregarded. One of the core objectives running through the entire thesis is the development of fundamental systematic methodology with respect to (a) the building of robust sound event detection models, and (b) the elaborate analysis regarding their application in many different situations --- both is underrepresented in available research publications. In the hereinafter presented studies, sound event detection models are built in different training schemes and evaluated in detail with respect to their performance in various acoustic scene conditions. Analyses are conducted on scenes with one to four co-occurring sound events, with sound-to-sound energy ratios of -20 dB to +20 dB, with different spatial source distributions, and in diverse acoustic environments from anechoic to church aula. It is shown (i) to which extent models that have been trained under specific acoustic conditions specialize to these, and (ii) that even with simple algorithms like logistic regression, through acoustically multifarious training almost optimal performances as achieved by the specialized models can be obtained consistently. The influence of temporal information integration is investigated, and it is shown that algorithms able to model context over longer durations benefit particularly in demanding scenes and get more precise in their detection. Moreover, a method for joining sound event detection and source localization is presented by which coherent auditory objects can be created. The proposed system associates the attributes "sound type" and "source location" successfully; for measuring success of such joint systems -- almost uncharted territory --, performance measures are suggested. It is shown that in an active binaural system spatial sound event detection performance can be increased considerably through suited head orientation. Finally, all developed models get tested in a simulated "online"-robotic system and their potential for forming integral components in computational auditory scene analysis is demonstrated.	en
dc.description.abstract	Automatische Geräuscherkennung und auditorische Szenenanalyse gewinnt mit der Verbreitung von technischen Systemen, die selbstständig oder im Hintergrund agieren, an Bedeutung, da selbstständiges Wirken ein Bewusstsein der Umgebung voraussetzt. In realistischen Szenen stellt eine zuverlässige Geräuscherkennung trotz der Erfolge in der verwandten Spracherkennung allerdings nach wie vor ein schwieriges Problem dar: Geräusche sind oft weniger prominent abgrenzbar als Sprache und folgen weniger Regeln, und sie treten häufig vielfach überlappend auf und in verschiedensten akustischen Umgebungen. Binaurale robotische Systeme sind auf Grund ihrer Ähnlichkeit mit dem Menschen besonders interessant, aber durch die Begrenzung auf zwei Mikrophone auch eingeschränkter, insbesondere in Hinsicht auf die räumliche akustische Szenenanalyse. Räumliches Hören spielt für den Menschen eine wesentliche Rolle, wurde bis jetzt aber in der automatischen Geräuscherkennung praktisch nicht beachtet. Ein die gesamte Dissertation durchziehendes Kernanliegen ist die Erarbeitung von grundlegender, systematischer Methodik sowohl in Bezug auf die Erstellung von robusten Geräuscherkennungsmodellen, als auch in Bezug auf deren ausführliche Analyse hinsichtlich der Anwendung in verschiedenen Situationen --- beides ist in verfügbaren Forschungsarbeiten unterrepräsentiert. In den im folgenden präsentierten Studien werden Geräuscherkennungsmodelle in verschiedenen Trainingsschemata entwickelt und im Detail bezüglich ihrer Erkennungsleistung in verschiedensten akustischen Szenenkonfigurationen evaluiert. Analysen finden über Szenen mit ein bis vier gleichzeitig aktiven Geräuschen, mit Geräusch-zu-Geräusch-Energieverhältnissen von -20 dB bis +20 dB, mit verschiedenen räumlichen Quellenverteilungen, und in verschiedenen akustischen Umgebungen von reflexionsfrei bis Kirchensaal statt. Es wird gezeigt, (i) wie stark Modelle, die unter bestimmten akustischen Bedingungen trainiert werden, sich auf diese spezialisieren, und (ii) dass selbst mit einfachen Algorithmen wie der logistischen Regression durch akustisch möglichst mannigfaltiges Training fast durchgehend optimale Erkennungsleistungen wie von den spezialisierten Modellen erreichbar sind. Der Einfluss von temporaler Informationsintegration wird untersucht, und gezeigt, dass Algorithmen, die einen Kontext über längere Zeiträume modellieren können, davon speziell in herausfordernden Szenen stark profitieren und präziser in ihrer Erkennung werden. Schließlich wird eine Methode zur Verbindung von der Geräuscherkennung mit einer Quellenlokalisierung vorgestellt, mit der auditorische Objekte mit kohärenten Attributen erzeugt werden können. Das präsentierte System verknüpft die Attribute "Geräuschtyp" und "Quellenort" erfolgreich; zur Bemessung des Erfolgs eines solchen kombinierten Systems -- fast komplettes Neuland -- werden Leistungsmaße vorgeschlagen. Es wird gezeigt, dass in einem aktiven binauralen System die räumliche Erkennung durch passende Orientierung des Kopfes erheblich gesteigert werden kann. Final werden alle entwickelten Modelle in einem simulierten "online"-Robotiksystem getestet und gezeigt, dass sie wie vorhergesagt funktionieren und integrale Bestandteile einer automatischen auditorischen Szenenanalyse darstellen können.	de
dc.identifier.uri	https://depositonce.tu-berlin.de/handle/11303/10967
dc.identifier.uri	http://dx.doi.org/10.14279/depositonce-9857
dc.language.iso	en	en
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/	en
dc.subject.ddc	004 Datenverarbeitung; Informatik	de
dc.subject.ddc	006 Spezielle Computerverfahren	de
dc.subject.ddc	600 Technik, Technologie	de
dc.subject.other	sound event detection	en
dc.subject.other	computational auditory scene analysis	en
dc.subject.other	machine learning	en
dc.subject.other	audio robotics	en
dc.subject.other	Geräuscherkennung	de
dc.subject.other	automatische Analyse akustischer Szenen	de
dc.subject.other	maschinelles Lernen	de
dc.subject.other	auditive Robotik	de
dc.title	Robust sound event detection in binaural computational auditory scene analysis	en
dc.title.translated	Robuste Geräuscherkennung in binauraler automatischer Analyse von akustischen Szenen	de
dc.type	Doctoral Thesis	en
dc.type.version	acceptedVersion	en
tub.accessrights.dnb	free	en
tub.affiliation	Fak. 4 Elektrotechnik und Informatik::Inst. Softwaretechnik und Theoretische Informatik::FG Neuronale Informationsverarbeitung	de
tub.affiliation.faculty	Fak. 4 Elektrotechnik und Informatik	de
tub.affiliation.group	FG Neuronale Informationsverarbeitung	de
tub.affiliation.institute	Inst. Softwaretechnik und Theoretische Informatik	de
tub.publisher.universityorinstitution	Technische Universität Berlin	en

Files

Original bundle

Now showing 1 - 1 of 1

Name:: trowitzsch_ivo.pdf
Size:: 5.88 MB
Format:: Adobe Portable Document Format
Description:

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 4.9 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Publications