Loading…
Thumbnail Image

Human processing of transmitted speech varying in perceived quality

Uhrig, Stefan Josef

Quality and Usability Lab

The present thesis addresses human information processing of technologically transmitted speech, especially the effects of varying speech transmission quality (e.g. due to background noise or limitations in transmission bandwidth). The concept of “perceived quality” refers to an evaluative perceptual feature that integrates a subset of more descriptive perceptual features or “perceptual quality features”. A functional model of quality perception is proposed, which describes internal processes and representations at different (sensory, perception, cognitive, response-related) processing stages during a listening-only situation, leading up to the formation of perceived quality. Three experimental studies are conducted to investigate the following influencing factors by means of a subjective quality metric (mean opinion score, MOS), behavioral performance measures (response time, hit rate) and neurophysiological parameters (amplitude and latency of the P3 component of the event-related brain potential): Study I examines the influence of different impairment types along the speech transmission path (frame loss, signal-correlated noise, bandpass filtering), each being associated with an independent perceptual quality feature (“discontinuity”, “noisiness”, “coloration”), on the discrimination of changes in perceived quality. Study II examines the influence of concurrent change in transmitted speech content on the discrimination of changes in perceived quality. Study III explores the influence of spatial speech reproduction and transmission quality on the identification of different speakers. Results from these studies are interpreted within the proposed functional model, emphasizing the role of attention for the allocation of perceptual-cognitive processing resources. The functional model validated in this thesis provides a theoretical basis to infer specific internal processes and behavioral strategies utilized by listeners in particular tasks and listening situations. An improved understanding of human information processing permits a process-oriented approach towards quality assessment of speech communication systems on multiple levels of analysis (subjective, behavioral, neurophysiological). Furthermore, results from Study III have practical implications for the design of spatial speech displays (e.g. as applied in teleconferencing or air traffic control).
Die vorliegende Arbeit behandelt die menschliche Informationsverarbeitung von technologisch übertragener Sprache, insbesondere die Auswirkungen unterschiedlicher Sprachübertragungsqualität (z.B. durch Hintergrundrauschen oder Einschränkungen der Übertragungsbandbreite). Unter dem Begriff der “wahrgenommenen Qualität” wird ein wertendes Wahrnehmungsmerkmal verstanden, welches eine Auswahl an mehr beschreibenden Wahrnehmungsmerkmalen oder “wahrnehmungsbezogenen (perzeptuellen) Qualitätsmerkmalen” zusammenfasst. In einem vorgeschlagenen funktionalen Modell der Qualitätswahrnehmung sind innere Prozesse und Repräsentationen auf unterschiedlichen Verarbeitungsstufen (sensorisch, perzeptuell, kognitiv, handlungsbezogen) während einer passiven Hörsituation beschrieben, die zum Erleben von wahrgenommener Qualität führen. Drei experimentelle Studien ermöglichen die Prüfung folgender Einflussfaktoren mithilfe einer subjektiven Qualitätsmetrik (“mean opinion score”, MOS), Maßen der Verhaltensleistung (Reaktionszeit, Treffer-Rate) sowie neurophysiologischer Parameter (Amplitude und Latenz der P3 Komponente des ereigniskorrelierten Hirnpotentials): Studie I untersucht den Einfluss verschiedener Störungstypen entlang des Sprachübertragungspfades (Rahmenverlust, signal-korreliertes Rauschen, Bandpass-Filterung), jeder verbunden mit einem unabhängigen perzeptuellen Qualitätsmerkmal (“Unterbrochenheit”, “Rauschhaftigkeit”, “Klangverfärbung”), auf die Diskrimination von Änderungen der wahrgenommenen Qualität. Studie II untersucht den Einfluss von gleichzeitiger Änderung des übertragenen Sprachinhaltes auf die Diskrimination von Änderungen der wahrgenommenen Qualität. Studie III erforscht den Einfluss von räumlicher Sprachwiedergabe und -übertragungsqualität auf die Identifikation verschiedener Sprecher. Die Ergebnisse dieser Studien werden im Rahmen des vorgestellten funktionalen Modells interpretiert, wobei insbesondere die Rolle von Aufmerksamkeit für die Zuweisung von perzeptuell-kognitiven Verarbeitungsresourcen hervorgehoben wird. Das in der vorliegenden Arbeit validierte funktionale Modell bietet eine theoretische Grundlage, um Rückschlüsse auf spezifische, von Hörern in bestimmten Aufgaben und Hörsituationen eingesetzte innere Prozesse und Verhaltensstrategien ziehen zu können. Ein vertieftes Verständnis menschlicher Informationsverarbeitung erlaubt einen prozessorientierten Ansatz zur Qualitätsmessung von Sprachkommunikationssystemen auf mehreren Analyseebenen (subjektiv, verhaltensbezogen, neurophysiologisch).Weiterhin haben die Ergebnisse aus Studie III praktische Bedeutung für den Entwurf räumlicher Sprach-Displays (z.B. angewandt in Telekonferenz-Diensten oder in der Flugverkehrskontrolle).