Delexikalisierungsmöglichkeiten:
Deutsche und Italienische Daten
Dateien suchen
- Gewünschte ips aus der Liste von Prof. Barry (oder aus einer selbst erstellten Liste) auswählen.
- Kiel Corpus: Den Dateinamen bestimmen, in der die ips vorkommt.
- Kiel Corpus of Read Speech: Sprecher "kko", Sprecherin "rtd"
- Kiel Corpus of Spontaneous Speech: Sprecherin "ANS", Sprecher "JAK", Sprecherin "KAE", Sprecher "TIS"
- Kiel Corpus: Unter UNIX die entsprechende *.s1h und *.16 (bzw. *.l16 oder *.r16) heraussuchen und ins eigene Homeverzeichnis kopieren.
- Kiel Corpus of Read Speech: /proj/PhonDat/Data/Read
- Kiel Corpus of Spontaneous Speech: /proj/PhonDat/Data/Spontan/Prosodic
Delexikalisierung mit praat
- Kiel Corpus Sound-Datei öffnen: Read → Read from special sound file → Read Sound from raw 16-bit Big Endian file...
- Bei Dateien, die mehr als die gewünschte ips enthalten, überschüssiges Material abschneiden:
- Edit
- im Edit-Fenster: überschüssiges Material markieren und mit Ctrl-X wegschneiden
- Manipulationsdatei erzeugen: To Manipulation...
- Manipulationsdatei editieren: Edit
- Pulse bei stimmhaften Konsonanten (außer bei silbischen Sonoranten) löschen (Ctrl-Alt-P)
- fehlerhafte Pulse korrigieren: löschen oder einfügen (Ctrl-P)
- Im "praat objects" Fenster: Extract pulses
- Delexikalisierte Sound-Datei mit Original-Intonation erzeugen: To Sound (hum)...
- Um eine monotone Intonation zu bekommen: Manipulationsdatei von der delexikalisierten Datei erzeugen (To Manipulation...)
- Diese neue Manipulationsdatei editieren: Edit
- Alle pitch points markieren und löschen (Ctrl-Alt-T)
- Zwei neue pitch points setzen: am Anfang und am Ende der Datei auf 100Hz (Ctrl-T)
- Im "praat objects" Fenster: Get resynthesis (PSOLA)
- Nicht vergessen: Die beiden erzeugten Sound-Dateien speichern! (Write → Write to WAV file...)
Beispiel: Original, hum mit Intonation, hum 100 Hz.
Delexikalisierung mit MARY
Kiel Corpus: *.dat-Dateien erzeugen:
- Folgende Perlskripte herunterladen und im eigenen Homeverzeichnis speichern: s1h2dur.pl und dur2dat_silbenbill.pl
- Unter UNIX im eigenen Homeverzeichnis die Perlskripte auf die gewünschten Kiel Corpus Dateien anwenden, z.B. für die Datei k61be046.s1h folgende Befehle eintippen:
- perl s1h2dur.pl k61be046.s1h > k61be046.s1h.dur
- perl dur2dat_silbenbill.pl k61be046.s1h.dur > k61be046.dat
AVIP Corpus (Italienisch):
Hier gibt es pro Sprecher nur eine *.dat-Datei:
- Napoli: A01FN, A01GN, C02FN, C02GN, C04FN, C04GN
- Pisa: A03FP, A03GP, C03FP, C03GP, D02FP, D02GP
Erzeugung des "MBROLA input" für MARY:
Von Hand:
- Aus der jeweiligen *.dat-Datei den Abschnitt mit der ausgewählten ips herauskopieren und abspeichern.
- Die Laute systematisch ersetzen, z.B.
- sasasa: alle Konsonanten durch "s" und alle Vokale (inkl. silbische Sonoranten) durch "a"
- -m-m-m: alle Konsonanten durch "_" (d.h. Pause) und alle Vokale (inkl. silbische Sonoranten) durch "m"
- pbla: alle stimmlosen Obstruenten durch "p", alle stimmhaften Obstruenten durch "b",
alle Sonoranten (r, m, n, N, l) durch "l" und alle Vokale (inkl. silbische Sonoranten) durch "a"
- pbSZla: wie pbla, nur alle stimmlosen Frikative durch "S", alle stimmhaften Frikative durch "Z" ersetzen.
- Ggf. Dauern ändern: Wenn (in der veränderten Datei!) zwei identische Laute aufeinander folgen, dann müssen diese zu einem zusammengefasst werden (mit entsprechend aufsummierter Dauer).
- Alle Informationen außer Laut und Dauer löschen.
- Als erste Zeile einfügen: _ 100.00 (0,100)
- Als letzte Zeile einfügen: _ 100.00 (100,100)
Mit einem Perlskript (für die Variante -m-m-m):
- Aus der jeweiligen *.dat-Datei den Abschnitt mit der ausgewählten ips herauskopieren und abspeichern.
- Folgendes Perlskript herunterladen und im eigenen Homeverzeichnis speichern: dat2hummary.pl
- Beispiel-Aufruf für k61be046.dat: perl dat2hummary.pl k61be046.dat > k61be046.mary.txt
Eingabe in MARY:
- Als Input format "MBROLA: duration & frequency values (MBROLA input)" auswählen.
- Unter "Voice" eine Männerstimme auswählen.
- Als Input text den von Hand oder mit einem Perlskript erzeugten Text eingeben und den Button "Process" drücken.
- "Save to disk" auswählen und die erzeugte Sound-Datei speichern.
Beispiel: Original, sasasa -m-m-m, pbla, pbSZla.