Thumbnail Image

Simulating conversations for the prediction of speech quality

Michael, Thilo

The measurement and prediction of speech quality are crucial planning tools for \acf{VoIP} communication providers. Current instrumental models that predict the quality of speech in a conversation scenario mainly rely on parameters of the transmission system for their prediction. However, for some degradations, it has been shown that the impact on the conversation, and thus the perceived quality, cannot be modeled by the parameters of the transmission alone. The effect of transmission delay on a telephone conversation depends on conversational interactivity, as the delayed speech signal slows down the turn-taking of the conversation partners. The impact of packet loss, while being audible in a listening situation, is also dependent on the part of transmitted information that is lost and, thus, whether the conversation partner needs to resolve a misunderstanding with additional repairing dialogue. In conversations where these impairments co-occur, interactivity effects may arise, as the meta-communication due to lost packets is, in turn, affected by transmission delay. As current instrumental quality prediction models do not consider these factors and their interaction, they cannot account for them. This thesis introduces conversation simulation as a new approach to the instrumental prediction of conversational quality. A simulation architecture is described based on incremental spoken dialogue processing that can model standardized conversation scenarios on the concept, turn-taking, and speech signal level. Especially the changes in turn-taking during delayed transmission and the retransmission of information due to packet loss are modeled and evaluated based on empirical conversations. The resulting simulated conversations are assessed with methods from the field of spoken dialogue systems and speech quality, resulting in parameters that represent the changes in conversations due to delay and packet loss. The fullband E-model, a standardized parametric model, is extended for conversational interactivity and bursty packet loss to utilize the parameters extracted from the conversations. Finally, the conversational quality is predicted based on the extended E-model and the parameters from the simulated conversations.
Die Messung und Vorhersage der Sprachqualität ist ein wichtiges Planungsinstrument für Anbieter von Voice-over-Internet-Protocol-Diensten. Aktuelle instrumentelle Modelle, die die Sprachqualität in einem Gesprächsszenario vorhersagen, stützen sich hauptsächlich auf Parameter des Übertragungssystems für ihre Vorhersage. Es hat sich jedoch gezeigt, dass die Auswirkungen auf das Gespräch und damit auf die wahrgenommene Qualität bei einigen Störungen nicht allein durch die Parameter der Übertragung modelliert werden können. Die Auswirkung einer Übertragungsverzögerung auf ein Telefongespräch hängt von der Interaktivität des Gesprächs ab, da das verzögerte Sprachsignal die Gesprächsteilnehmer in ihrem Redefluss bremst. Die Auswirkungen von Paketverlusten sind zwar in einer Hörsituation erkennbar, hängen aber auch davon ab, welcher Teil der übertragenen Informationen verloren geht und ob der Gesprächspartner ein Missverständnis durch einen zusätzlichen Reparaturdialog aufklären muss. In Gesprächen, in denen diese Beeinträchtigungen gleichzeitig auftreten, kann es zu Interaktivitätseffekten kommen, da die Metakommunikation aufgrund verlorener Pakete wiederum durch die Übertragungsverzögerung beeinträchtigt wird. Da die derzeitigen Modelle zur Qualitätsvorhersage diese Faktoren und ihre Wechselwirkung nicht berücksichtigen, können sie diese nicht in die Vorhersage mit einbeziehen. In dieser Arbeit wird die Konversationssimulation als neuer Ansatz für die instrumentelle Vorhersage der Gesprächsqualität vorgestellt. Es wird eine Simulationsarchitektur beschrieben, die auf der inkrementellen Verarbeitung gesprochener Dialoge basiert und standardisierte Gesprächsszenarien auf Konzept-, Turn-Taking- und Sprachsignalebene modellieren kann. Insbesondere werden die Veränderungen im Turn-Taking bei verzögerter Übertragung und die erneute Übertragung von Informationen aufgrund von Paketverlusten modelliert und anhand von empirischen Gesprächen bewertet. Die daraus resultierenden simulierten Gespräche werden mit Methoden aus dem Bereich der gesprochenen Dialogsysteme und der Gesprächsanalyse ausgewertet, so dass sich Parameter ergeben, die die Veränderungen in Gesprächen aufgrund von Verzögerungen und Paketverlusten darstellen. Das Vollband-E-Modell, ein standardisiertes parametrisches Modell, wird für Gesprächsinteraktivität und Paketverluste erweitert, um die aus den Gesprächen extrahierten Parameter zu nutzen. Schließlich wird die Konversationsqualität auf der Grundlage des erweiterten E-Modells und der Parameter aus den simulierten Konversationen vorhergesagt.