Praktikumsberichte · 2004-01-26 · Caren Brinkmann

Caren Brinkmann

Homepage Caren Brinkmann
Dauer 07.1997 - 09.1997
Firma ATR (Advanced Telecommunications Research Institute International)
Adresse 2-2-2 Hikaridai
"Keihanna Science City"
Seika-cho, Soraku-gun
Kyoto 619-0288
Japan

Betreuer: Nick Campbell

Kurzbeschreibung der Arbeit

Verbesserung der deutschen Sprachausgabe des Unit Selection Sprachsynthesesystems CHATR:

  • Sprachdaten: Erweiterung der deutschen Sprachdatenbank für Unit Selection Sprachsynthese (basierend auf dem Kiel Corpus of Read Speech)
  • Graphem-zu-Phonem Umwandlung: Anpassung des Lexikons (CELEX) an die Bedürfnisse der Sprachsynthese (phonetische vs. phonemische Transkription)
  • Deutsches Prosodie-Modul: Vorhersage von Phrasengrenzen und GToBI-Tönen auf der Basis von Informationen über
    • Wortart
    • Silbengrenzen und Wortbetonung
    • Topologische Felder und Satztypen
    • Interpunktion

Fun with CHATR:

  • Englische Sprachausgabe basierend auf deutschen Sprachdaten: Modellierung eines deutschen Akzents

Beschreibung des Praktikums

Mein achtwöchiges Praktikum habe ich im Sommer 1997 bei ATR ITL (Interpreting Telecommunications Research Laboratories) absolviert. Bedingt durch eine Umstrukturierung von ATR gibt es ITL zwar heute nicht mehr, die Sprachsynthese wird bei ATR jedoch weiterentwickelt von HIS (Human Information Science Laboratories).

Der Forschungsaufenthalt fand im Rahmen des REES Programms (Research Experience for European Graduate Students in Science and Technology) statt, dass auf der japanischen Seite von JISTEC und auf der deutschen Seite von der Studienstiftung des deutschen Volkes organisiert und finanziert wird. Das REES Programm beginnt mit einer einwöchigen Einführung in die japanische Sprache und Kultur in Tokyo. Danach werden die Studenten auf die jeweiligen Firmen/Forschungsinstitute verteilt. Außer mir war auch noch Kristina Striegnitz für ATR angenommen worden, mit der ich schon 1995/96 im Rahmen eines Austauschprogramms für ein Jahr in Sendai gewesen war.

Einige Wochen vor unserem Abflug nach Japan haben wir von Nick Campbell unsere "research plans" bekommen. Meiner trug den Titel "German Prosody Prediction for Speech Synthesis", Kristinas lautete "Morphological Pre-processing and Text Annotation for German Speech Synthesis of Translated Utterances". Da ich damals als HiWi im Sprachsyntheseprojekt des Instituts für Phonetik auch am Prosodiemodul gearbeitet habe, war ich sehr gespannt auf die Aufgabe...

Bei meinen ersten Versuchen mit der deutschen Stimme von CHATR konnte ich hören, dass leider etwa die Hälfte der synthetisierten Äußerungen unverständlich war. Das lag zum einen an der Größe der deutschen Sprachdatenbank, die mit 15 Minuten Sprachmaterial für Unit Selection Synthese viel zu klein war. Zum anderen enthielt das auf CELEX basierende Lexikon phonemische statt (wie für Sprachsynthese erforderlich) phonetische Einträge. Daher musste ich erst einmal diese Unzulänglichkeiten beheben, bevor ich mich mit der deutschen Prosodiemodellierung befassen konnte.

Acht Wochen sind eine sehr kurze Zeit für einen Forschungsaufenthalt, insbesondere wenn man sich erst einmal in ein so großes System wie CHATR einarbeiten muss. Zusammen mit Kristina habe ich daher nur die ersten Schritte unternehmen können, CHATRs deutsche Stimmen verständlicher und natürlicher klingen zu lassen. Ich habe ein auf syntaktischen Informationen basierendes Prosodiemodul erstellt und den deutschen Stimmen Englisch beigebracht (natürlich mit deutschem Akzent!). Es wäre schön gewesen, noch weitere Prosodie-Module zu implementieren, um diese in gründlichen Perzeptionstests (mit naiven Versuchspersonen) miteinander vergleichen zu können, aber dafür haben die acht Wochen leider nicht ausgereicht.

Weitere Informationen

  • Hörbeispiele
  • Brinckmann, Caren (1997): German in Eight Weeks - A Crash Course for CHATR. Technical Report TR-IT-0236, ATR Interpreting Telecommunications Laboratories, Kyoto, Japan.