Loading…
Towards understanding the perceptions of warmth and competence in synthetic speech
Rallabandi, Sai Sirisha
Artificial Intelligence (AI) has demonstrated superior performance in tasks like gaming and Natural Language Processing (NLP) tasks. Nevertheless, it would be interesting to explore its efficiency in addressing problems that would benefit humanity. In this context, this thesis proposes to use AI for social good specifically focusing on artificial speech generation. This work demonstrates the necessity and approaches of investigating positive perceptions of synthetic voices. These positive perceptions are measured using the universal dimensions of social cognition, warmth, and competence. Further, the speech features contributing to each of these dimensions are derived and incorporated into artificial speech generation mechanisms such as Text-to-Speech (TTS) synthesis and Voice Conversion (VC). From the empirical studies and subjective analysis, it is evident that achieving socially positive and acceptable synthetic voices is possible.
Künstliche Intelligenz (KI) hat sich bei Aufgaben wie Spielen und der Verarbeitung natürlicher Sprache (NLP) als besonders leistungsfähig erwiesen. Dennoch wäre es interessant, die Effizienz der Effizienz bei der Lösung von Problemen zu erforschen, die der Menschheit zugute kommen würden. In diesem Zusammenhang wird in dieser Arbeit vorgeschlagen, KI für soziale Zwecke einzusetzen, wobei der Schwerpunkt auf der künstlichen Spracherzeugung liegt. Diese Arbeit zeigt die Notwendigkeit und die Ansätze zur Erforschung positiver Wahrnehmungen von synthetischen Stimmen. Diese positiven Wahrnehmungen werden anhand der universellen Dimensionen soziale Wahrnehmung, Wärme und Kompetenz gemessen. Darüber hinaus werden die Sprachmerkmale, die zu jeder dieser Dimensionen beitragen, abgeleitet und in Mechanismen der künstlichen Spracherzeugung wie Text-to-Speech (TTS)-Synthese und Voice Conversion (VC) integriert. Aus den empirischen Studien und der subjektiven Analyse wird deutlich, dass es möglich ist, sozial positive und akzeptable synthetische Stimmen möglich ist.