Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-9530
For citation please use:
Main Title: On the analysis of speech rhythm for language and speaker identification
Translated Title: Über die Analyse von Sprachrhythmus für Landessprache- und Sprecher*inidentifizierung
Author(s): Lykartsis, Athanasios
Advisor(s): Weinzierl, Stefan
Referee(s): Weinzierl, Stefan
Grube, Manon
Dellwo, Volker
Granting Institution: Technische Universität Berlin
Type: Doctoral Thesis
Has Part: 10.14279/depositonce-9714
10.14279/depositonce-9709
10.14279/depositonce-9710
10.14279/depositonce-9715
10.14279/depositonce-9716
10.14279/depositonce-9717
10.14279/depositonce-8778
10.14279/depositonce-8804
Language Code: en
Abstract: In the context of this dissertation, novel methods for rhythm description and extraction originating from the area of Music Information Retrieval (MIR) were adapted and applied to represent speech rhythm and its properties. These methods were then used to extract rhythmic information to be used in two specific classification scenarios relevant to speech technology: language identification (LID) and speaker identification (SID). Specifically, periodicity representations that offer an overview of the prominent “beats” – i.e., the salient, recurring temporal or spectral patterns in the audio signal – were created by using the Beat Histogram, an established method for extraction of rhythm information in MIR. The adaptation entailed the analysis of several signal features (e.g., fundamental frequency, energy, spectral change and others) which describe relevant signal properties and directly shape human percepts of, for instance, syllables, phones, accents and prosody. This approach was then thoroughly tested on two multilingual speech datasets with different properties (read vs. spontaneous speech, high vs. low audio signal quality, Indo-European languages only vs. others) using state-of-the- art machine learning algorithms. The results of the experiments for LID show that speech rhythm description based on the proposed methods can be successful, but mostly in the case of read speech with high audio signal quality and for Indo-European languages, pointing towards a potential for improvement of the descriptor robustness. The results are promising, and they surpass the state-of-the-art results of other studies on LID for the used datasets, demonstrating that the proposed features indeed capture a significant part of the variability between languages. Further experiments performed on a dataset of Swiss German for SID showed that rhythmic information is less informative for that task, and that spectral information accounted for much of the variability between speakers. Finally, a feature selection procedure showed descriptors such as tempo (i.e., speech rate), spectral change and fundamental frequency to consistently be among the most useful and informative ones. This finding highlights the fact that it is important to reliably extract salient temporal information, as the descriptors resulting from it are, in many cases, informative as well. Similar results were obtained when the methods were applied to the related task of rhythm-based genre classification on music datasets, suggesting that the findings are not strictly speech specific. Furthermore, listening test experiments for differences in listening to speech vs. listening to singing confirm the findings about the most salient features to be tempo and regularity. Finally, the language rhythm family hypothesis (for example, English and German as the “morse-code” family and Spanish, Italian and French as the “machine-gun” family) could be partially confirmed, but not in its original form. This possibly shows that rhythm classes, which have been difficult to identify with other methods (e.g., other speech rhythm metrics) are also hard to be detected using automatic methods. Alternatively, this might hint at a gap between human- perceived cues and machine-extracted descriptors for speech rhythm. The developed analysis system in the context of the dissertation can be used for rhythm description for various tasks.
Im Rahmen dieser Dissertation wurden neuartige Methoden zur Rhythmusbeschreibung, die aus dem Bereich Music Information Retrieval (MIR) stammen, adaptiert und auf Sprachsignale angewendet, um den Sprachrhythmus und seine Eigenschaften zu erfassen. Diese wurden auf zwei Szenarien aus dem Bereich der Sprachtechnologie angewendet: Die Identifizierung der Landessprache und die Identifizierung einzelner Sprecher*innen. Hierfür wurde eine Analyse von Periodizitäten des Signals mittels Beat Histogram durchgeführt. Diese Methode bietet eine Übersicht der prominentesten “Beats”, d.h. der salienten, wiederkehrenden temporalen oder spektralen Muster im Audiosignal. Diese ist der etabliertesten Methoden zur Extraktion rhythmischer Information im MIR. Die vorliegende Adaptierung beinhaltet eine Analyse verschiedener Signalmerkmale (z.B. der Grundfrequenz der Stimme, der Energie, der spektralen Änderung und einiger anderer), die relevante Signaleigenschaften beschreiben und mittelbar im Zusammenhang unserer Wahrnehmung sprachlicher Objekte wie z. B. Silben, Phoneme, Akzente und Prosodie beeinflussen. Dieser Ansatz wurde an zwei multilingualen Datensätzen mit unterschiedlichen Eigenschaften getestet (vorgelesene vs. spontane Sprechart, hohe vs. niedrige Signalqualität, nur indoeuropäischen Sprachen vs. andere), wobei verschiedene Algorithmen des maschinellen Lernens zur Anwendung kamen. Die Ergebnisse der Experimente zur Identifizierung der Landessprache konnten zeigen, dass eine Beschreibung des Sprachrhythmus mithilfe der hier benutzten Methoden möglich ist. Sie gelingt allerdings hauptsächlich für vorgelesene Sprache von hoher Signalqualität und für indoeuropäische Sprachen, was auf ein Potential zur Verbesserung der Robustheit der vorgeschlagenen Deskriptoren hinweist. Die Ergebnisse sind insofern vielversprechend, als dass sie schon existierende Werte anderer Studien über Landessprach- und Sprecher*innenidentifizierung für diese Datensätze übertreffen. Das weist darauf hin, dass die Deskriptoren in der Tat einen wichtigen Teil der rhythmischen Variabilität zwischen Sprachen erfassen. Die Experimente zur Identifizierung einzelner Sprecher*innen, die mit einem Datensatz von Aufnahmen in Schweizerdeutsch durchgeführt wurden, haben gezeigt, dass die vorgeschlagenen rhythmischen Deskriptoren für Sprecher*innenidentifizierung weniger informativ für diese Aufgabe sind. In dem Zusammenhang war spektrale Information hilfreicher für die Unterscheidung zwischen Sprecher*innen. Eine Selektionsprozedur für Audiomerkmale hat gezeigt, dass Deskriptoren wie das Tempo, die spektrale Änderung und die Grundfrequenz immer unter den für die Klassifizierung wichtigsten Merkmale waren. Ähnliche Ergebnisse wurden bei Anwendung der Methoden auf Musikdatensätze zur Genreklassifizierung erreicht, was darauf hinweist, dass die Ergebnisse nicht rein sprachspezifisch sind. Außerdem konnten die Ergebnisse bezüglich der wichtigsten Merkmale (die das Tempo und die Regelmäßigkeit waren) durch Hörversuche bestätigt werden, die die rhythmischen Unterschiede zwischen Sprache und Gesang untersuchten. Die Existenz von Rhythmusfamilien, d.h. eine Unterscheidung zwischen akzentzählenden Sprachen wie Englisch oder Deutsch und silbenzählenden Sprachen wie Spanisch oder Italienisch konnte teilweise tendenziell, aber nicht in ihrer ursprünglichen Form bestätigt werden. Das zeigt, dass die Rhythmusklassen, die durch andere Methoden (z. B. Sprachrhythmusmetriken) nicht eindeutig erkannt werden konnten, auch durch automatische Analysemethoden schwer erkennbar sind. Alternativ könnte das auf eine Lücke zwischen von Menschen wahrgenommenen und maschinell extrahierten Merkmale des Sprachrhythmus hinweisen. Das im Rahmen der Dissertation entwickelte Analysesystem kann für Rhythmusbeschreibung in verschiedenen Kontexten benutzt werden.
URI: https://depositonce.tu-berlin.de/handle/11303/10604
http://dx.doi.org/10.14279/depositonce-9530
Exam Date: 6-Dec-2019
Issue Date: 2020
Date Available: 31-Jan-2020
DDC Class: 620 Ingenieurwissenschaften
Subject(s): beat histogram
speech rhythm
language identification
speaker identification
musical rhythm
Sprachrhythmus
Landesspracheidentifizierung
Sprecher*inidentifizierung
Musikrhythmus
License: http://rightsstatements.org/vocab/InC/1.0/
Appears in Collections:FG Audiokommunikation » Publications

Files in This Item:
lykartsis_athanasios.pdf
Format: Adobe PDF | Size: 2.02 MB
DownloadShow Preview

Item Export Bar

Items in DepositOnce are protected by copyright, with all rights reserved, unless otherwise indicated.