Loading…
Thumbnail Image

Machine learning based speech quality prediction

Mittag, Gabriel

Quality and Usability Lab

Instrumental speech quality prediction is a long-studied field in which many models have been presented. However, in particular, the single-ended prediction without the use of a clean reference signal remains challenging. This thesis studies how recent developments in machine learning can be leveraged to improve the quality prediction of transmitted speech and additionally provide diagnostic information through the prediction of speech quality dimensions. In particular, different deep learning architectures were analysed towards their suitability to predict speech quality. To this end, a large dataset with distorted speech files and crowdsourced subjective ratings was created. A number of deep learning architectures, such as CNNs, LSTM networks, and Transformer/self-attention networks were combined and compared. It was found that a network with CNN, Self-Attention, and a proposed attention-pooling delivers the best single-ended speech quality predictions on the considered dataset. Furthermore, a double-ended speech quality prediction model based on a Siamese neural network is presented. However, it could be shown that, in contrast to traditional models, deep learning models only slightly benefit from including the clean reference signal. For the prediction of perceptual speech quality dimensions, a multi-task learning based model is presented that predicts the overall speech quality and the quality dimensions Noisiness, Coloration, Discontinuity, and Loudness in parallel, where most of the neural network layers are shared between the individual tasks. Finally, the single-ended speech quality prediction model NISQA is presented that was trained on a large variety of 59 different datasets. Because the training datasets come from a variety of sources and contain different quality ranges, they are exposed to subjective biases. Therefore, the same speech distortions can lead to very different quality ratings in two datasets. To prevent a negative influence of this effect, a bias-aware loss function is proposed that estimates and considers the biases during the training of the neural network weights. The final model was tested on a live-talking test set with real recorded phone calls, on which it achieved a Pearson's correlation of 0.90 for the overall speech quality prediction.
Die instrumentelle Qualitätsschätzung übertragener Sprache ist ein seit langer Zeit erforschtes Gebiet, in welchem schon viele Modelle vorgestellt wurden. Insbesondere die nicht-intrusive Schätzung ohne ungestörtes Referenzsignal stellt jedoch innerhalb der Forschungsliteratur eine Herausforderung dar. In dieser Dissertation wird untersucht, wie neueste Entwicklungen im maschinellen Lernen dazu genutzt werden können, die Qualitätsschätzung von übermittelter Sprache zu verbessern und zusätzliche diagnostische Informationen durch die Schätzung perzeptiver Sprachqualitätsdimensionen zu liefern. Mehrere Deep-Learning-Architekturen wurden dahingehend analysiert, wie geeignet sie für die Sprachqualitätsschätzung sind. Hierfür wurde zunächst eine große Datenbank mit gestörten Sprachsignalen erstellt und mittels Crowdsourcing mit subjektiven Bewertungen annotiert. Deep-Learning-Architekturen wie CNNs, LSTM-Netze und Transformer-/Self-Attention-Netze wurden dann kombiniert und miteinander verglichen. Dabei hat sich ergeben, dass ein Netz mit CNN, Self-Attention und einem vorgestellten Attention-Pooling die besten Ergebnisse für eine nicht-intrusive Schätzung auf den untersuchten Datenbanken ergibt. Weiterhin wurde ein intrusives Sprachqualitätsmodell basierend auf einem siamesischen neuralem Netz vorgestellt. Allerdings konnte gezeigt werden, dass Deep-Learning-Modelle im Gegensatz zu traditionellen Modellen durch die Einbindung der ungestörten Referenz nur leicht profitieren. Für die Schätzung der perzeptuellen Sprachqualitätsdimensionen wurde ein Modell basierend auf Multi-Task-Learning präsentiert. Es schätzt gleichzeitig die Gesamtqualität und die Qualitätsdimensionen Rauschhaftigkeit, Klangverfärbung, Diskontinuität und Lautheit. Schließlich wird das nicht-intrusive Modell NISQA vorgestellt, welches auf 59 unterschiedlichen Datenbanken trainiert wurde. Aufgrund der Tatsache, dass die Datenbanken aus verschiedenen Quellen kommen und unterschiedliche Qualitätsumfänge beinhalten, sind die Datenbanken subjektiven Verzerrungen ausgesetzt. Daher kann zum Beispiel die gleiche Störung in zwei Datenbanken zu sehr unterschiedlichen Qualitätsbewertungen führen. Um einen negativen Einfluss dieser Effekte zu vermeiden, wird eine Verlustfunktion vorgestellt, welche die Verzerrungen zunächst schätzt und dann während des Trainings des neuralen Netzes berücksichtigt. Das finale Modell wurde auf einer Datenbank mit Live-Aufnahmen echter Telefonate getestet und erzielte eine Pearson-Korrelation von 0.90 für die Schätzung der Gesamtsprachqualität.