Computational Linguistics & Phonetics Computational Linguistics & Phonetics Fachrichtung 4.7 Universität des Saarlandes
M.Sc., M.A., Ph.D. theses and "Habilschriften"

"Qualifikationsschriften" at our institute

[Habilschriften]    [Ph.D. theses]    [M.Sc. theses]    [B.SC. theses]    [M.A. theses]   

Habilitationsschriften

    Bistra Andreeva (2017): Contrastive Prosody: Bulgarian vs. German
    Bettina Braun (2012): Processing speech prosody: from lexical access to intonational meaning
    Manfred Pützer (2005): "Stimmqualität und Artikulation bei Dysarthrophonien in der individuellen, tendenziellen und referentiellen Bewertung - Ein instrumenteller Beitrag zu Phonations- und Artikulationsvariationen."
    Martine Grice (2003): "Prosody: Theory and Implementation."
    Henning Reetz (1998): "Automatic Speech Recognition with Features."

Ph.D. theses

    Jeanin Jügler (2017): Feedback Methods on Pronunciation in Second Language Learning
    Stephanie Köser (in progress): Turn-taking, Interactional Phonetics
    Fabian Brackhane (2015): 'Kann was natürlicher, als Vox humana, klingen?' Ein Beitrag zur Geschichte der mechanischen Sprachsynthese.
    Eva Lasarcyk (2014): Empirical evaluation of the articulatory synthesizer VocalTractLab as a discovery tool for phonetic research: Articulatory-acoustic investigations of paralinguistic speech phenomena.
    Denis Arnold (2013): Die Erhebung perzeptueller Prominenz auf Silben- und Wortebene: Der Einfluss von Bewertungsskalen, Bewertungsebenen und Normalisierung.
    Ingmar Steiner (2010): "Observations on the dynamic control of an articulatory synthesizer using speech production data."
    Link to the document
    Dalei Wu (2006): "Discriminative Preprocessing of Speech: Towards Improving Biometric Authentication."
    Bistra Andreeva (2005): "Zur Phonetik und Phonologie der Intonation der Sofia-Varietät des Bulgarischen."
    Link to the document
    Stefan Baumann (2005): "The Intonation of Givenness - Evidence from German."
    abstract    
    Bettina Braun (2004): Production and Perception of Contrastive and Non-contrastive Themes in German.
    Link to the document
    Patricia I. Mueller-Liu (2004): The Suprasegmental Signaling of Attitude in German and Chinese.
    Link to the document
    Jürgen Trouvain (2003): "Changing Tempo in Speech Production - Implications for Speech Syhthesis."
    Link to the document
    Marc Schröder (2003): "Speech and Emotion Research - An overview of Research Frameworks and a Dimensional Approach to Emotional Speech Synthesis."
    Link to the document

M.Sc. theses

supervised in collaboration with staff of the LORIA (Nancy) or staff of the Department of Computational Linguistics (Saarland University)

    Manisha Gandhi (2015): "Focus in Non-native English Intonation."
    Anjana Vakil (2015): "Automatic diagnosis and feedback for lexical stress in non-native speech."
    Alina Vasileuskaya (2014): "Rapid prototyping of speech technologies for Belorusian as a low-resource language."
    Benjamin Weitz (2014): "Gesture-Based Articulatory Text-to-Speech Synthesis."
    Lili Szabo (2013): "Speech Rhythm as an Interaction of Measurements on Durational Variability and Vowel Quality."
    Jennifer Moore (2009): "Discourse-Driven Pitch Accent Prediction."
    Trevor Benjamin (2008): "Patterns in Usage, Patterns in Action: 'Left Dislocation' in English Conversation'."
    Mat Wilson (2008): "Fitting an articulatory model with EMA data: toward an evaluation of speech inversion."
    Nadiya Yampolska (2008): "Acoustic properties of focus in English interrogatives: comparison native and non-native realization."

B.Sc. theses

supervised in collaboration with staff of the LORIA (Nancy) or staff of the Department of Computational Linguistics (Saarland University)

    Lennart Schmeling (2015): "Der ich-Laut als schwieriger Laut für französische Muttersprachler: Perzeption und Produktion vor und nach der Anwendung von Sensibilisierungsmethoden."

Magister theses (M.A.)

(since 2000)

    Aleksandar Tanchev (2014): "Zur Realisierung deutscher vokale (L2) von bulgarischen Muttersprachlern (L1). Eine kontrastive Untersuchung zu Vokalproduktionen (L1-L2)."
    Nina Huwer (2014): "Produktion von muttersprachlichen und nicht-muttersprachlichen Lauten und prosodischen Mustern bei Kindern und Erwachsenen."
    Lisa Müller (2014): "Instrumentalphonetische Untersuchungen zur Stimmqualität bei hypo- und hyperfunktioneller Anregung."
    Anette Klepp (2013): "An Experimental Comparison of L2 Acquisition Models: James Flege's Speech Learning Model and Catherine Best's Perceptual Assimilation Model."
    Xaver Koch (2012): "Zur Rolle kortikaler und subkortikaler Strukturen bei der Initierung und Produktion segmentell und suprasegmental differierender CV-Silbenwiederholungen."
    Marco Kuznik (2012): "Dialekt in Bewegung: Phonetisch-phonologische Unterschiede zwischen drei Generationen in einem ostschwäbischen Dialekt."
    Cristina Blaß (2011): "Fehlerschwerpunkte in der deutschen Aussprache italienischer und französischer Deutschlerner. Eine phonetische Studie."
    Lisa Fuchs (2011): "Vergleich der Wertigkeit isoliert gehaltener Vokale gegenüber der Wertigkeit von Vokalen aus fortlaufender Rede für die spektralanalytische Objektivierung von Stimmqualität."
    Pia Rübig (2011): "Kontrastive Aspekte zu der Realisierung von Plosiven und Vokalen bei bulgarischen Deutschlehrern."
    Juliane Schmidt (2011): "Einfluss altersbedingter auditiver Einschränkungen auf die Wahrnehmung emotionaler Äußerungen."
    Corinna Schorr (2011): "Instrumentalphonetische und perzeptive Untersuchung der Vox senilis (Altersstimme)."
    Yvonne Flory (2010): "Untersuchung von Fernkoartikulation - eine akustische und perzeptuelle Studie zu R-Resonanzen im Deutschen."
    Olga Trifsik (2010): "Akustische Träger der Prominenz. Untersuchungen zur Produktion und Perzeption."
    Annette Klinger (2009): "Akustische Parameter von Prominenz im Deutschen - der relative Beitrag von Intensität, Dauer und Vokalfärbung zur wahrgenommenen Akzentuierung."
    Fabian Brackhane (2009): "Die Sprechmaschine Wolgang von Kempelens - eine phonetische Analyse."
    Michael Bruss (2008): "Quantitative und phonetische Analyse von nicht-linguistischen Partikeln in spontan gesprochener Sprache der Wiener Soziolekte."
    Anja Moos (2008): "Forensische Sprechererkennung mit der Messmethode LTF (long-term formant distribution)."
    Filio Tsouklidi (2008): "Vergleichende Analyse der Silbenprominenz im Griechischen und im Deutschen."
    Beate Rühle (2008): "Aufmerksamkeit und Lautdiskrimination. Eine Studie über die Zusammenhänge und Ausprägungen in Kindergarten und Grundschule."
    Dominik Bauer (2007): "Sprecherspezifik der Stimmtonhöhe in gefüllten Pausen und am Ende von Intonationsphrasen."
    Susanne Oberdhan (2006): "Auswirkungen des Alters auf die Stimmqualität bei PatientInnen mit spasmodischer Dysphonie."
    Anastasia Ammann (2005): "Zur akustischen Basis der perzipierten Prominenz im Bulgarischen und im Deutschen."
    Gudrun Schuchmann (2005): "Die Synchronisation der tonalen und segmentalen Ebene bei Akzenten im Deutschen."
    Caren Brinckmann (2004): "The 'Kiel Corpus of Read Speech' as a Resource for Speech Synthesis."
    Link to the document
    Cordula Klein (2004): "Acoustic and Perceptual Gender Characteristics in the Voices of Pre-adolescent Children."
    Link to the document
    Thomas Blug (2003): "Prosodische Optimierung phrasenbasierter Sprachsynthese."
    Silke Jarmut (2003): "Instrumentelle Analyse von Sprechern mit einseitiger Rekurrensparese - Vier longitudinale Fallstudien."
    abstract     Link to the document
    Carmen Bollig (2003): "Erweiterte intervokalische Kontexteinflüsse in der konkatenativen Diphonsynthese."
    Angela Michelfelder (2002): "Phonetic vs. Random Initialisation of a Phonotopic Map for Automatic Vowel Recognition."
    Stephanie Köser (2001): "'Sollten' oder ['zOl?n]? Zur Glottalisierung alveolarer Plosive im Deutschen."
    abstract     Link to the document
    Bettina Braun (2001): "Zur Problematik der Hidden-Markov-Modellierung von Akzentuierung in Spontansprache."
    abstract    
    Sibylle Kötzer (2000): Koartikulation in der Automatischen Spracherkennung."
    abstract    

Abstracts

Stephanie Köser (2001):
"'Sollten' oder ['zOl?n]? Zur Glottalisierung alveolarer Plosive im Deutschen." (M.A.)

Das Thema meiner Untersuchung war die Frage, ob deutsche Sprecher Plosive durch einen Glottalverschluß bzw. Laryngalisierung ersetzen/verstärken (wie z.B. in einigen englischen Dialekten) oder andere Reduktions- und Ersatzgesten verwenden und welche Faktoren darauf einen Einfluß haben könnten.

Die Idee, die diesen Überlegungen zugrundeliegt, ist die Annahme, dass Sprecher zu ökonomischer Sprechweise neigen und dementsprechend Gesten reduzieren oder ersetzen, wo dies keinen Verlust an Verständlichkeit mit sich bringt.
Zur Einschränkung der Daten wurden nicht alle Artikulationsstellen in allen möglichen Kontexten untersucht, sondern es wurde auf Basis der Ergebnisse zahlreicher Studien zur Glottalisierung im Deutschen von K.J. Kohler eine Vorauswahl getroffen. So interessierten mich die alveolaren Plosive, die in der Umgebung von Nasalen oder zwischen einem Nasal und einem Lateral vorkommen. Denn hier hat Kohler häufig Glottalisierungen und in einigen Fällen auch stimmlose Sonoranten und die vollständige Elision des Plosivs gefunden. Allerdings soll diese Arbeit mehr sein als eine reine Replikation von Kohlers Untersuchungen − nicht zuletzt, weil dort sehr viele Faktoren nicht kontrolliert, und somit z.B. keine süddeutschen Sprecher untersucht wurden.
Eine wichtige Variable, die untersucht wurde, ist die Häufigkeit der Ersatz- und Reduktions-Realisierungen. Im Fall von Glottalisierung wurde darüber hinaus geprüft, ob es eine regelhafte Verteilung von Glottalverschlüssen vs. Laryngalisierungen gibt und ob die mittlere F0 bei Laryngalisierung bei Männern und Frauen den Unterschied in der Grundfrequenz von Männer- und Frauenstimmen widerspiegelt. Weitere abhängige Variable bei Glottalisierung war deren Dauer.
Die Realisierungen wurden in Abhängigkeit von der phonologischen Stimmhaftigkeit des Plosivs (also /d/ vs. /t/) und dessen segmentellem Kontext untersucht. Außerdem wurden norddeutsche mit süddeutschen und weibliche mit männlichen Sprechern verglichen.
Von 15 Sprechern wurden jeweils 22 Wörter in fünf Wiederholungen eines gelesenen Textes analysiert, so dass der Analyse 1650 Stimuli zugrunde lagen.

Zusammenfassend lassen sich folgende Ergebnisse nennen:
Die Glottalisierung alveolarer Plosive ist im Deutschen zu finden - sogar in gelesener Sprache, wie diese Untersuchung zeigt. Sie wurde bei den norddeutschen Sprechern etwas mehr gefunden als bei den süddeutschen, die häufiger stimmlose Sonoranten anstelle eines Plosivs produzierten. Die Realisierungstendenzen der männlichen und weiblichen Sprecher waren dabei vergleichbar. Entgegen der Literatur zu der Stimmqualität Creak war im Falle der Laryngalisierung die mittlere F0 bei Frauen und Männern nicht dieselbe; sie war bei Frauen höher.
Phonologisch stimmlose Plosive wurden häufiger glottalisiert als stimmhafte. Auch die Dauer der Glottalisierung war länger. Evtl. spiegeln sich darin noch fortis-Eigenschaften wider.
Bei der sonoranten Lautumgebung sind es v.a. die internasalen Plosive, die glottalisiert oder als stimmlose Sonoranten realisiert wurden, kaum Plosive zwischen Nasal und Lateral.

Hauptaugenmerk lag auf der Realisierungsform Glottalisierung. Deshalb beschäftigt sich ein Kapitel meiner Arbeit mit den eventuellen dahinterstehenden physiologischen Prozessen und der Frage, ob diese wirklich dieselben wie bei der Stimmqualität Creak sind. Auch akustisch scheint sich Glottalisierung nicht in einem einheitlichen Muster zu zeigen. Ein kleiner Hinweis dafür könnten die z.T. recht unterschiedlichen Signale der hier untersuchten Sprecher sein.

Veröffentlicht in Phonus 9 (2005).


Bettina Braun (2001):
"Zur Problematik der Hidden-Markov-Modellierung von Akzentuierung in Spontansprache." (M.A.)

Accentuation is a means to highlight informationally relevant information. This highlighting is phonetically realized in German (and in other intonation languages) by a greater duration, a higher intensity, a pitch-movement and a different spectral quality. These factors contribute to the perception of accentuation but on the other hand introduce variability if we are to recognise just the quality of vowels.
Making explicit use of accentuation helps to create more homogenious models on the one hand, and provides us with information about whether a vowel was accented or not on the other hand. This information is crucial for information systems.
This master thesis dealt with the following hypotheses: First, phone recognition accuracy does not downgrade if we incorporate information about accentuation into the models. Second, accented vowels may be recognised better since they have more marked spectral qualities compared to the reduced unaccented vowels. Third, the temporal (and spectral) reduction can be implemented manually in the hidden Markov models of accented vowels and show similar results.
A manual change of probabilities in the stochastic hidden Markov model was successfully undertaken for modelling different speech rates. Hidden Markov models consist of states with observation probabilities (which correspond to spectral properties), transition probabilities to the next state and self-loop probabilities to the current state. Transition and self-loop probabilities reflect in some sense the duration of the phoneme model because they detemerine if the model has to remain in the current state or passes to the next one. Models for high speech rates could thus be manually derived by increasing the transition probabilities to the next state.
In this thesis a similar approach is conducted for accentuation, i.e. accentuation is manually implemented in the transition probabilities of the model. First, the duration and the spectral quality of the vowels in the database (Kiel Corpus of spontaneous speech) were analysed. The Kiel Corpus annotates 4 degrees of accentuation, starting form unaccented 0 to emphasised 3. Since these four classes are not equally distributed and a statistical analysis found no significant difference in duration between groups 0-2 these were grouped together for the further experiments.
Two baseline systems for vowel recognition were trained with ALL vowels and 4 and 8 mixtures respectively (Base4 and Base8). Next, vowel models for accented and unaccented vowels were trained separately with 4 mixtures (experiment Akz4). It is hypothesised that the performance of Akz4 lies in between Base4 and Base8. Base4 has to model all the variability with only 4 mixtures while in Akz4 the variability is reduced by training accented and unaccented models. Base8, however has the same total amount of mixtures as Akz4 but can model its probabilities solely in data-driven way. In the last set of experiments, transition probabilities of trained accented models were manually adapted according to the temporal reduction (ProzUS) which should model the spectral undershoot as well. For comparison an absolute reduction in transition probabilities was performed (AbsUS).
As expected, the performance of Akz4 (49.4%) was between Base4 (48.0%) and Base8 (50.8%). However, half of the vowels were best recognised in Akz4. So, a rule-based division of vowels according to accentuation did not deteriorate the results significantly. Confusion with /@/ is least for Akz4. Information about accentuation can be extracted much better than chance level (frequency baseline). Any manual adaptation of transition probabilities severely deteriorated the recognition results (41.9% for ProzUS and 41.7% for AbsUS). This shows that undershoot can not be modelled by changing transition probabilities. This finding clearly contrasts with results with different speech rates which could model the temporal reduction. These leads to the conclusion that accentuation differences are reflected to a great extent in the spectral quality (and to some degree on temporal change) while speech rate differences do sustain the spectral quality.


Sibylle Kötzer (2001):
"Koartikulation in der Automatischen Spracherkennung." (M.A.)

In this masters thesis, an investigation is undertaken about the benefit of the so-called vowel transitions for automatic speech recognition (ASR) tasks.
To clarify the motivation and show the particular role of vowel transitions in the phonetic context as a whole, a general survey of coarticulation and variation in speech is presented first. It is shown that articulatory constraints, phonological ruling as well as perceptual strategies each contribute to the widespread observations made up by coarticulatory processes that are as different as e.g. place assimilation and devoicing.
Then the focus is drawn onto the phenomen of the vowel transition. It is well known since now about fifty years, where Delattre, Liberman and Cooper made their famous experiments with synthetic formant transitions, that the vowel transition is an indicator of place of articulation of neighbouring consonants. The transitions can be seen acoustically as energy peaks (formants) moving in frequency domain over time towards the so called locus frequency that is dependent on the place of articulation of the consonant. Although some later investigations related and weakened the strong hypothesis of the locus theory (e.g. Öhman), looking at formant transitions is still a reliable tool in phonetic interpretation.
Then follows a chapter where the bridge from phonetics to ASR is drawn. A short overview is given about how coarticulation has been dealed with in ASR up to now. It is seen that the main attempts in this field have been made by using phonetic features instead of mere acoustic parametrisation. But all in all, most nowaday ASR systems still do not exploit coarticulatory information actively, but do cope with it passively by modeling the variation statistically.
In the experimental part of the investigation, the theoretical implications are tested in their benefit for ASR. For this purpose different experimental ASR configurations are tested on the TIMIT database using Hidden Markov Modeling. The core experiment is a classification task of consonants with the aid of offset- and onset vowel transitions surrounding the consonant, if present. But in contrast to the theoretical implications made, the results of the experiment did not show neither over-all improvement nor place of articulation improvement compared to the benchmark classification made without vowel transitions.
A follow-up experiment then showed that the classification of the transition parts themselves resulted in very poor numbers. This explained the fact that their presence could not add any usable phonetic information in the consonant classificaion task that would have resulted in higher classification numbers. Some possible reasons are discussed. One reason (too many different manners of articulation in the consonants), resulted in another two experiments, but here again without getting clear cut results.
In the discussion, the reasons of the mismatch between theoretical implications and their benefit in real-life applications in the experiments is discussed. It becomes evident that too many variables, not only concerning phonetic issues but also acoustical parametrisation, choice of models, training and so on, being kept steady throughout all experiments, may contribute to some results not suitable to mirror the desired phenomens. On the other hand, by changing too many variables within the experimental series, the results would have been even more difficult to interpret and to compare.
Hence, this investigation revealed two points. First, it could not be demonstrated that the formant transition improved classification in the given experimental design. But this in turn does not mean that the formant transition is of no use at all in speech recognition, because other ASR experiments did show positive evidence. Second, it becomes clear that each ASR design, although parameters and methods being evaluable, nevertheless is a system ressembling a black box to a more or less extend. In other words, too many variables interact in ways that are not controllable easily. One major future task is to find adequate acoustic-phonetic features as well as their coarticulatory modeling.


Silke Jarmut (2003):
"Instrumentelle Analyse von Sprechern mit einseitiger Rekurrensparese - Vier longitudinale Fallstudien." (M.A.)

In dieser Arbeit wird die Verwendung akustischer und elektroglottographischer Analysemethoden zur Untersuchung der glottalen Funktion als Ergänzung und Objektivierung phoniatrischer Diagnosen überprüft. Dazu werden Sprecherinnen und Sprecher mit einseitiger Rekurrensparese im Vergleich zu stimmgesunden Kontrollgruppen untersucht.

In einer Pilotstudie wird nachgewiesen, daß mit Hilfe instrumenteller Analysen zwischen gesunden und pathologischen sowie zwischen kompensierenden und nicht-kompensierenden Sprecherinnen unterschieden werden kann.

Für die Hauptuntersuchung werden die Signale von zwei Sprecherinnen und zwei Sprechern analysiert, die bei jedem Sprecher zu drei unterschiedlichen Zeitpunkten vorliegen. Die Analysedaten der drei Sitzungen werden einerseits untereinander verglichen, um glottale Veränderungen festzustellen. Andererseits werden sie mit bereits empirisch ermittelten Daten stimmgesunder Kontrollgruppen in Beziehung gesetzt, um die Veränderungen als Verbesserung oder als Verschlechterung einzustufen. Ergänzend wird eine subjektive auditive Bewertung mit Hilfe des in Deutschland verwendeten RBH-Systems (Rauhigkeit, Behauchtheit, Heiserkeit) angegeben. Es wird gezeigt, daß instrumentelle Analysemethoden zur Ergänzung und Objektivierung phoniatrischer Diagnosen herangezogen werden können.

Veröffentlicht in Phonus 9 (2005).


Stefan Baumann (2005):
"The Intonation of Givenness - Evidence from German." (PhD)

This book addresses students and researchers of both phonetics and phonology, and the semantics and pragmatics of discourse. It employs an autosegmental-metrical model of intonation to investigate the marking of aspects of information structure, concentrating on the Given-New dimension. It begins with an overview of the state of the art 'Givenness' has been used in the areas of intonation and information structure, and, since the term in the literature in diverging ways, provides a model of 'Givenness proper', focussing on the cognitive states of discourse referents, and how these states are expressed through the choice of words and their prosody.

The empirical evidence provided here is based on German. It comprises the analysis of a read corpus and two perception experiments which show that the dichotomy of 'accented' versus 'unaccented' corresponding to 'New' versus 'Given' information is inadequate. In fact, there is evidence that a range of pitch accent types (including deaccentuation) can be mapped onto the gradient scale of Givenness degrees, with the pitch height on the accented syllable being the determining factor.