Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-2465
Main Title: Modellbasiertes einkanaliges Rauschreduktionsverfahren angewendet auf gestörte Sprachsignale kombiniert mit einem mehrkanaligen Beamformingverfahren
Translated Title: Model based one-channel noise reduction combined with a beamforming algorithm applied to noisy speech signals
Author(s): Schwab, Markus
Advisor(s): Sikora, Thomas
Granting Institution: Technische Universität Berlin, Fakultät IV - Elektrotechnik und Informatik
Type: Doctoral Thesis
Language: German
Language Code: de
Abstract: In vielen Anwendungen treten Sprachsignale oft in gestörter Form auf, wie zum Beispiel bei Freisprecheinrichtungen im Auto. Die vorliegende Arbeit beschäftigt sich mit digitalen Filtermethoden, die Störsignale in Sprachaufnahmen unterdrücken bzw. eliminieren sollen. Die Arbeit fokussiert sich auf Frequenzbereichsverfahren. In einkanaligen Rauschreduktionsverfahren haben sich modellbasierte Verfahren als sehr effizient erwiesen. Diese Verfahren modellieren das Rausch- und Sprachsignal als Zufallsprozesse und führen anschließend eine Minimierung des quadratischen Fehlers (MMSE) durch. Für die Wahrscheinlichkeitsdichtefunktionen (PDF) des Rausch- sowie des Sprachsignals müssen a priori Annahmen getroffen werden. Traditionell werden diese PDFs als gaußverteilt angenommen. Für das Sprachmodell wird in dieser Arbeit eine parametrisierte PDF (generalisierte Gammaverteilung) angenommen. In Abhängigkeit des a priori und a posteriori SNRs werden die Filtergewichte numerisch für verschiedene Modellparameter vorbestimmt. Vier verschiedene Fehlerkriterien im Spektralbereich werden für die MMSE Optimierung verwendet: komplexe Amplitude, Amplitude, log-Amplitude und Amplitudenquadrat. Letzteres Filter ist für die Schätzung des Leistungsdichtespektrums der Sprache nötig. Zur Bestimmung der optimalen Parameter für das Sprachmodell wurden 45 Minuten Sprache mit einem weißen gaußschen Rauschen mit bekannter Varianz gestört. Anschließend wurde das verrauschte Signal mit verschiedenen Filtern entstört. 990 verschiedene Wertepaare für die Modellparameter mit jeweils 3 Optimierungskriterien wurden getestet. Die besten Werte für die Modellparameter sind dann anhand der mittleren quadratischen Fehler in der komplexen Amplitude, Amplitude und log-Amplitude ausgewählt worden, um das optimale Filter bzw. das optimale Sprachmodell zu bekommen. Die Modelloptimierung eignet sich besonders gut für die Verkleinerung des mittleren quadratischen Fehlers in der log-Amplitude. Die Erkennungsraten von automatischen Spracherkennungssystemen lassen sich erheblich steigern, indem man eine log-Amplituden-optimierte Filterung als Vorverarbeitungsstufe einsetzt. Für die Schätzung des Rauschleistungsdichtespektrums wurde ein neues Verfahren entwickelt, welches das Minimumstatistikverfahren von Rainer Martin (2001) und dem MCRA-Verfahren (engl.: minima controlled recursive averaging) von Israel Cohen (2003) miteinander verbindet. Der neue Algorithmus zeigt eine höhere Genauigkeit in der Schätzung und kann sich schneller auf eine Änderung des Umgebungsrauschens anpassen. Das Leistungsdichtespektrum des Sprachsignals wird mit der so genannten "Soft Decision" Methode geschätzt. In der vorliegenden Arbeit werden zusätzlich Verbesserungsvorschläge gemacht, die Verzögerungen der Schätzung gegenüber der Standardmethode verringert und die Genauigkeit erhöht. Mehrkanalige Systeme (Mikrofonarrays) sind in Lage gerichteten Störquellen (zum Beispiel Konkurrenzsprecher) zu eliminieren, während die oben beschriebene einkanalige Filterung zur Reduktion von diffusem Hintergrundrauschen geeignet ist. Zur Trennung von Signalen ist eine Systemidentifikation notwendig. In dieser Arbeit wird die Kreuzkorrelationsmethode dazu verwendet. Optimalfilter für die Auto- und Kreuzleistungsdichtespektren verbessern die Ergebnisse im Falle von verrauschten Eingangsdaten. Dazu wurde ein neuer Optimalschätzer für das Kreuzleistungsdichtespektrum entwickelt. Der „Generalized Sidelobe Canceller“, bestehend aus einem festen Beamformer (FBF), einer „Blocking Matrix“ (BM) und einem „Multiplen Input Canceller“ (MIC), ist eine Standardverfahren des adaptiven Beamformings. In dieser Arbeit wird ein neuer fester Beamformer entwickelt, der die Informationen aus der Systemidentifikation verwendet, um auch die von den Wänden reflektierten Nutzsignale zu verwenden. Aus der Systemidentifikation werden zusätzlich Informationen für einen anschließenden „Delay-and-Sum-Beamformer“ (DSB) gewonnen. Der neu entwickelte FBF erzielt eine wesentlich höhere SNR-Verbesserung gegenüber eines einfachen DSBs. Die BM nutzt direkt die Informationen aus der Systemidentifikation für das Nutzsignal. Der anschließende MIC wird aus den Koeffizienten der BM und des FBF, sowie der Systemidentifikation für das gerichtete Störsignal bestimmt. Die Arbeit schließt mit der Betrachtung einer Kaskadierung der beiden vorgestellten Algorithmen. Zunächst nimmt der Beamformer eine Trennung von Ziel- und Konkurrenzsprecher vor, während das einkanalige Rauschreduktionsfilter als Postfilter das diffuse Hintergrundrauschen unterdrückt.
In many important applications speech signals are distorted by additive noise. This work deals with digital filtering method for enhancing noisy speech signals. The focus of this work lies on methods working in the frequency domain. Model based algorithms have been proven to be very effective in reducing noise. These methods use probability density functions (PDF) to model the noise and the speech signal. I will use a gaussian distribution for the noise signal and a generalized gamma distribution for the speech signal. This PDF has two parameters which will be optimized later to obtain an optimal speech model. The filter are based on the minimum mean square error (MMSE) criterion. Four different error functions are considered: complex amplitude, amplitude, log-amplitude, and squared amplitude. The MMSE optimization leads to integrals which cannot be solved in a closed form. The filter weights are a function of the a priori and the a posteriori signal-to-noise-ratio (SNR) and are calculated numerically. The parameters in the speech PDF are optimized on a 45 minutes speech signal which has been corrupted with additive white gaussian noise. This noisy speech signal is denoised with different filters depending on the assumed speech model. 990 different parameter pairs are considered and tested on three error criteria: complex amplitude, amplitude, and log-amplitude. Upon these results, optimal parameters for the speech PDF are chosen. The optimization in the log-amplitude shows a significant improvement for automatic speech recognition systems. A new algorithm is developed for the noise power estimation. This algorithm combines the advantages of the minimum statistics algorithm of Rainer Martin (2001) and the MCRA algorithm (minima controlled recursive averaging) of Israel Cohen (2003). The new algorithm shows a lower variance in the estimation and the adaption of the algorithm is faster in the case of a changing environmental noise. For the speech power estimation, i.e. a priori SNR, the decision directed method is used. In this work, also some improvements of the standard algorithm are proposed. These propositions results in more accurate estimation of the a priori SNR. The overall one-channel noise reduction algorithm shows an improvement in the segmental SNR and higher recognition rates in automatic speech recognition systems. The second part of this work deals with beamforming algorithms. System identification plays a key role in adaptive beamforming. In this work, the correlation method is used to estimate the system of the target speaker and an interference speaker. To improve the system identification in a noisy environment an optimal estimator for the cross-correlation is presented. Based on the system identification and the generalized sidelobe canceller (GSC), a new beamformer is developed. Part of this beamformer is a newly developed fixed beamformer. This new fixed beamformer is a two step algorithm. First, a matched filter is applied which makes use of the system identification of the target speaker. This algorithm takes wall-reflections of the target signal into account. Afterwards, a delay-and-sum beamformer is used to further improve the signal. This new algorithm increases the array gain significantly compared to a simple delay-and-sum-beamformer. The blocking matrix and the multiple input canceller are calculated directly from the system identification of the target and the interference speaker. This new GSC-beamformer is improves the signal-to-interference-ratio (SIR) in weak reverberating rooms up to 30 dB. Even in high reverberating rooms a SIR improvement of over 12 dB is achieved. Finally, the one-channel noise reduction algorithm is used as a postfilter applied after the GSC-beamformer. The beamformer first eliminates directed noise signals like a interference speaker. Afterwards, the one-channel speech enhancement algorithm removes the residual diffuse noise.
URI: urn:nbn:de:kobv:83-opus-25898
http://depositonce.tu-berlin.de/handle/11303/2762
http://dx.doi.org/10.14279/depositonce-2465
Exam Date: 11-Sep-2009
Issue Date: 12-May-2010
Date Available: 12-May-2010
DDC Class: 620 Ingenieurwissenschaften und zugeordnete Tätigkeiten
Subject(s): Beamforming
Rauschreduktion
Signaltrennung
Sprachsignal
Systemidentifikation
Beamforming
Noise reduction
Signal separation
Speech signal
System identification
Usage rights: Terms of German Copyright Law
Appears in Collections:Technische Universität Berlin » Fakultäten & Zentralinstitute » Fakultät 4 Elektrotechnik und Informatik » Institut für Telekommunikationssysteme » Publications

Files in This Item:
File Description SizeFormat 
Dokument_25.pdf3,87 MBAdobe PDFThumbnail
View/Open


Items in DepositOnce are protected by copyright, with all rights reserved, unless otherwise indicated.