On the analysis of speech rhythm for language and speaker identification

dc.contributor.advisorWeinzierl, Stefan
dc.contributor.authorLykartsis, Athanasios
dc.contributor.grantorTechnische Universität Berlinen
dc.contributor.refereeWeinzierl, Stefan
dc.contributor.refereeGrube, Manon
dc.contributor.refereeDellwo, Volker
dc.date.accepted2019-12-06
dc.date.accessioned2020-01-31T11:04:19Z
dc.date.available2020-01-31T11:04:19Z
dc.date.issued2020
dc.description.abstractIn the context of this dissertation, novel methods for rhythm description and extraction originating from the area of Music Information Retrieval (MIR) were adapted and applied to represent speech rhythm and its properties. These methods were then used to extract rhythmic information to be used in two specific classification scenarios relevant to speech technology: language identification (LID) and speaker identification (SID). Specifically, periodicity representations that offer an overview of the prominent “beats” – i.e., the salient, recurring temporal or spectral patterns in the audio signal – were created by using the Beat Histogram, an established method for extraction of rhythm information in MIR. The adaptation entailed the analysis of several signal features (e.g., fundamental frequency, energy, spectral change and others) which describe relevant signal properties and directly shape human percepts of, for instance, syllables, phones, accents and prosody. This approach was then thoroughly tested on two multilingual speech datasets with different properties (read vs. spontaneous speech, high vs. low audio signal quality, Indo-European languages only vs. others) using state-of-the- art machine learning algorithms. The results of the experiments for LID show that speech rhythm description based on the proposed methods can be successful, but mostly in the case of read speech with high audio signal quality and for Indo-European languages, pointing towards a potential for improvement of the descriptor robustness. The results are promising, and they surpass the state-of-the-art results of other studies on LID for the used datasets, demonstrating that the proposed features indeed capture a significant part of the variability between languages. Further experiments performed on a dataset of Swiss German for SID showed that rhythmic information is less informative for that task, and that spectral information accounted for much of the variability between speakers. Finally, a feature selection procedure showed descriptors such as tempo (i.e., speech rate), spectral change and fundamental frequency to consistently be among the most useful and informative ones. This finding highlights the fact that it is important to reliably extract salient temporal information, as the descriptors resulting from it are, in many cases, informative as well. Similar results were obtained when the methods were applied to the related task of rhythm-based genre classification on music datasets, suggesting that the findings are not strictly speech specific. Furthermore, listening test experiments for differences in listening to speech vs. listening to singing confirm the findings about the most salient features to be tempo and regularity. Finally, the language rhythm family hypothesis (for example, English and German as the “morse-code” family and Spanish, Italian and French as the “machine-gun” family) could be partially confirmed, but not in its original form. This possibly shows that rhythm classes, which have been difficult to identify with other methods (e.g., other speech rhythm metrics) are also hard to be detected using automatic methods. Alternatively, this might hint at a gap between human- perceived cues and machine-extracted descriptors for speech rhythm. The developed analysis system in the context of the dissertation can be used for rhythm description for various tasks.en
dc.description.abstractIm Rahmen dieser Dissertation wurden neuartige Methoden zur Rhythmusbeschreibung, die aus dem Bereich Music Information Retrieval (MIR) stammen, adaptiert und auf Sprachsignale angewendet, um den Sprachrhythmus und seine Eigenschaften zu erfassen. Diese wurden auf zwei Szenarien aus dem Bereich der Sprachtechnologie angewendet: Die Identifizierung der Landessprache und die Identifizierung einzelner Sprecher*innen. Hierfür wurde eine Analyse von Periodizitäten des Signals mittels Beat Histogram durchgeführt. Diese Methode bietet eine Übersicht der prominentesten “Beats”, d.h. der salienten, wiederkehrenden temporalen oder spektralen Muster im Audiosignal. Diese ist der etabliertesten Methoden zur Extraktion rhythmischer Information im MIR. Die vorliegende Adaptierung beinhaltet eine Analyse verschiedener Signalmerkmale (z.B. der Grundfrequenz der Stimme, der Energie, der spektralen Änderung und einiger anderer), die relevante Signaleigenschaften beschreiben und mittelbar im Zusammenhang unserer Wahrnehmung sprachlicher Objekte wie z. B. Silben, Phoneme, Akzente und Prosodie beeinflussen. Dieser Ansatz wurde an zwei multilingualen Datensätzen mit unterschiedlichen Eigenschaften getestet (vorgelesene vs. spontane Sprechart, hohe vs. niedrige Signalqualität, nur indoeuropäischen Sprachen vs. andere), wobei verschiedene Algorithmen des maschinellen Lernens zur Anwendung kamen. Die Ergebnisse der Experimente zur Identifizierung der Landessprache konnten zeigen, dass eine Beschreibung des Sprachrhythmus mithilfe der hier benutzten Methoden möglich ist. Sie gelingt allerdings hauptsächlich für vorgelesene Sprache von hoher Signalqualität und für indoeuropäische Sprachen, was auf ein Potential zur Verbesserung der Robustheit der vorgeschlagenen Deskriptoren hinweist. Die Ergebnisse sind insofern vielversprechend, als dass sie schon existierende Werte anderer Studien über Landessprach- und Sprecher*innenidentifizierung für diese Datensätze übertreffen. Das weist darauf hin, dass die Deskriptoren in der Tat einen wichtigen Teil der rhythmischen Variabilität zwischen Sprachen erfassen. Die Experimente zur Identifizierung einzelner Sprecher*innen, die mit einem Datensatz von Aufnahmen in Schweizerdeutsch durchgeführt wurden, haben gezeigt, dass die vorgeschlagenen rhythmischen Deskriptoren für Sprecher*innenidentifizierung weniger informativ für diese Aufgabe sind. In dem Zusammenhang war spektrale Information hilfreicher für die Unterscheidung zwischen Sprecher*innen. Eine Selektionsprozedur für Audiomerkmale hat gezeigt, dass Deskriptoren wie das Tempo, die spektrale Änderung und die Grundfrequenz immer unter den für die Klassifizierung wichtigsten Merkmale waren. Ähnliche Ergebnisse wurden bei Anwendung der Methoden auf Musikdatensätze zur Genreklassifizierung erreicht, was darauf hinweist, dass die Ergebnisse nicht rein sprachspezifisch sind. Außerdem konnten die Ergebnisse bezüglich der wichtigsten Merkmale (die das Tempo und die Regelmäßigkeit waren) durch Hörversuche bestätigt werden, die die rhythmischen Unterschiede zwischen Sprache und Gesang untersuchten. Die Existenz von Rhythmusfamilien, d.h. eine Unterscheidung zwischen akzentzählenden Sprachen wie Englisch oder Deutsch und silbenzählenden Sprachen wie Spanisch oder Italienisch konnte teilweise tendenziell, aber nicht in ihrer ursprünglichen Form bestätigt werden. Das zeigt, dass die Rhythmusklassen, die durch andere Methoden (z. B. Sprachrhythmusmetriken) nicht eindeutig erkannt werden konnten, auch durch automatische Analysemethoden schwer erkennbar sind. Alternativ könnte das auf eine Lücke zwischen von Menschen wahrgenommenen und maschinell extrahierten Merkmale des Sprachrhythmus hinweisen. Das im Rahmen der Dissertation entwickelte Analysesystem kann für Rhythmusbeschreibung in verschiedenen Kontexten benutzt werden.de
dc.identifier.urihttps://depositonce.tu-berlin.de/handle/11303/10604
dc.identifier.urihttp://dx.doi.org/10.14279/depositonce-9530
dc.language.isoenen
dc.relation.haspart10.14279/depositonce-9714
dc.relation.haspart10.14279/depositonce-9709
dc.relation.haspart10.14279/depositonce-9710
dc.relation.haspart10.14279/depositonce-9715
dc.relation.haspart10.14279/depositonce-9716
dc.relation.haspart10.14279/depositonce-9717
dc.relation.haspart10.14279/depositonce-8778
dc.relation.haspart10.14279/depositonce-8804
dc.rights.urihttp://rightsstatements.org/vocab/InC/1.0/en
dc.subject.ddc620 Ingenieurwissenschaftende
dc.subject.otherbeat histogramen
dc.subject.otherspeech rhythmen
dc.subject.otherlanguage identificationen
dc.subject.otherspeaker identificationen
dc.subject.othermusical rhythmen
dc.subject.otherSprachrhythmusde
dc.subject.otherLandesspracheidentifizierungde
dc.subject.otherSprecher*inidentifizierungde
dc.subject.otherMusikrhythmusde
dc.titleOn the analysis of speech rhythm for language and speaker identificationen
dc.title.translatedÜber die Analyse von Sprachrhythmus für Landessprache- und Sprecher*inidentifizierungde
dc.typeDoctoral Thesisen
dc.type.versionacceptedVersionen
tub.accessrights.dnbfreeen
tub.affiliationFak. 1 Geistes- und Bildungswissenschaften::Inst. Sprache und Kommunikation::FG Audiokommunikationde
tub.affiliation.facultyFak. 1 Geistes- und Bildungswissenschaftende
tub.affiliation.groupFG Audiokommunikationde
tub.affiliation.instituteInst. Sprache und Kommunikationde
tub.publisher.universityorinstitutionTechnische Universität Berlinen

Files

Original bundle
Now showing 1 - 1 of 1
Loading…
Thumbnail Image
Name:
lykartsis_athanasios.pdf
Size:
1.97 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
4.9 KB
Format:
Item-specific license agreed upon to submission
Description:

Collections