Loading…
Thumbnail Image

Speech signal evaluation using automatic speech recognition systems

Karbasi, Mahdie

Automatic speech recognition (ASR) technologies have advanced significantly in recent years, and as a result, their applications have expanded. One area of study that can benefit from ASR systems is the automatic evaluation of speech signals. This work focuses on two aspects of speech evaluation: speech intelligibility prediction (SIP) and mispronunciation detection. The prediction of speech intelligibility is highly desirable in the speech research community, as traditional listening tests can be time-consuming and not practical for online use. However, most objective speech intelligibility (SI) measures are intrusive, as they require a clean reference signal and the corresponding noisy/processed signal at hand. In the first part of this work, we propose a blind approach that employs a recognition/synthesis framework called twin hidden Markov model (THMM) for synthesizing the clean features required for an intrusive SIP method. We demonstrate that the output of this approach is highly correlated with human speech recognition results in different noise conditions. In the second part of the study, we focus on microscopic SIP, where previous works have mostly analyzed SIP methods from a macroscopic point of view, averaging over longer time spans. We present a theoretical framework for the microscopic evaluation of SIP methods, deriving a Statistically Estimated Accuracy based on Theory (StAT) that numerically quantifies the statistical limitations inherent in microscopic SIP. We also introduce a fully blind Discriminative Speech Intelligibility Predictor (DISP), which is evaluated within the StAT framework. We demonstrate that this novel blind estimator can predict intelligibility as well as, and often better than, the non-blind ASR-based approach. We also provide an overview of the body of research focused on ASR-based SIP methods, highlighting the main differences between competing methods and explaining their benefits and limitations. The third part of the study focuses on the detection of mispronunciations using multi-modal (specifically, audio-visual) speech recognition as an alternative to acoustic-based approaches. We compare early fusion (i.e., the use of one joint audio-visual network) with a turbo-decoding approach that combines contributions from acoustic and visual models. We show that our novel architecture, using deep neural network acoustic and visual submodels in conjunction with turbo-decoding, is well suited for the task of mispronunciation detection and that the visual modality contributes strongly to achieving noise-robust performance. Overall, this thesis presents novel approaches for speech intelligibility prediction and mispronunciation detection using ASR systems. The proposed methods offer non-intrusive and blind alternatives to traditional speech evaluation techniques and are well-suited for challenging acoustic environments.
Diese Arbeit beschäftigt sich mit ausgewählten strukturellen und algorithmischen Aspekten von temporalen Graphen, d.h. Graphen deren Kanten nur zu gewissen Zeitpunkten vorhanden sind. Temporale Graphen eignen sich zur Modellierung zahlreicher Netzwerke, deren Verbindungen stark zeitabhängig sind, wie dies z.B. im öffentlichen Personenverkehr, bei Kontaktgraphen oder Kommunikationsnetzen oft der Fall ist. Unsere Interesse gilt insbesondere der Erreichbarkeit zwischen Knoten. Dieses Konzept ist in temporalen Graphen komplexerer Natur als in statischen Graphen, denn einen Knoten b von einem anderen Knoten a aus zu erreichen, erfordert nicht nur eine Folge von Kanten, die einen Pfad von a nach b bilden, sondern zusätzlich dass die Verfügbarkeitszeiten dieser Kanten entlang des Pfades monoton steigen. Im Einzelnen werden hier die folgenden vier Aspekte temporaler Graphen näher untersucht. Temporale Voronoi-Spiele. Voronoi-Spiele wurden in der Vergangenheit auf statischen Graphen und im Euklidischen Raum analysiert. Sie modellieren ein Szenario, in dem zwei konkurrierende Akteure versuchen, möglichst viele Knoten jeweils zuerst zu erreichen. In dieser Arbeit werden Voronoi-Spiele auf temporalen Graphen eingeführt und untersucht. Eine genaue Analyse der diesen Spielen innewohnenden Struktur erlaubt es uns, hinreichende Bedingungen für die Existenz von Nash-Gleichgewichten (d.h. stabilen Situationen von denen keiner der Spieler abweichen möchte) zu finden (und diese effizient zu bestimmen). Erreichbarkeit in zufälligen temporalen Graphen. Wir untersuchen die Erreichbarkeit in einem einfachen Modell von zufälligen temporalen Graphen, das an Erdős-Rényi-Graphen angelehnt ist. Es stellt sich heraus, dass in diesem Modell verschiedene Abstufungen von temporaler Erreichbarkeit an spezifischen scharfen Dichte-Schwellwerten erreicht werden. Das bedeutet, dass ein großer zufälliger temporaler Graph gewisse Erreichbarkeitseigenschaften (mit hoher Wahrscheinlichkeit) genau dann besitzt, wenn seine Dichte den jeweiligen Schwellwert überschreitet. Ferner ermitteln wir solche Dichte-Schwellwerte auch für die Existenz verschiedener Arten von Subgraphen, die temporale Erreichbarkeit zwischen allen Knoten herstellen. Temporale Feedback-Kanten-Mengen. Es geht hier um das (algorithmische) Problem, eine kleinstmögliche Anzahl an Verbindungen aus einem gegebenen temporalen Graphen zu entfernen um damit alle temporalen Kreise zu unterbrechen, d.h. sodass anschließend kein Knoten mehr sich selbst über einen Rundweg erreichen kann. Zum einen stellen wir fest, dass dieses Problem selbst in einigen sehr eingeschränkten Szenarien NP-schwer ist, zum anderen zeigen wir aber auch fixed-parameter tractability für gewisse Parameterkombinationen. Isolierte Cliquen. Eine temporale Clique besteht aus einer Knotenmenge und einem Zeitintervall mit der Eigenschaft, dass ebendiese Knoten während des besagten Zeitintervalls paarweise durch Kanten verbunden sind. Wir betrachten insbesondere isolierte temporale Cliquen, d.h. temporale Cliquen, die nur schwach mit dem restlichen Graphen verbunden sind. Wir zeigen für fünf der sechs möglichen Isolationsbegriffe, dass eine Auflistung isolierter temporaler Cliquen fixed-parameter tractable bzgl. des Parameters Isolationsgrad ist.