Implementierung statistischer Methoden in der Sprachverarbeitung

Projektseminar im Wintersemester 1997/98

Leitung: Thorsten Brants

Ort: Geb. 17 Raum 5.09

Zeit: Di 9-11



Termine:

25.11.97 - Einführung: Wahrscheinlichkeitstheorie, Markov-Ketten

02.12.97 - ausgefallen (Streik)

09.12.97 - ausgefallen (Streik)

16.12.97 - Einführung: Markov-Modelle

06.01.97 - Einführung: Part-of-Speech Tagging

13.01.98 - Brigitte Krenn: Tagging von Silben

20.01.98 - Wojciech Skut: Tagging mit strukturellen Tags

27.01.98 - Einführung: Smoothing und unbekannte Wörter

03.02.98 - Kristina Striegnitz und Oliver Plaehn: Data Oriented Parsing (Folien: Teil 1, Teil2)

10.02.98 - Alexander Koller und Tobias Miller: Stochastische kontextfreie Grammatiken

17.02.98 - Thorsten Brants: Link Grammar (Literatur)



In dem Projektseminar geht es um die Implementierung effizienter und robuster statistischer Methoden der Sprachverarbeitung am Beispiel von Part-of-Speech Tagging und stochastischem Parsing. Auf diesen Techniken basiert eine große Zahl existierender linguistischer Anwendungen.

Stochastische Tagger und Parser bestehen aus folgenden Komponenten:

  1. der Parameter-Bestimmung aus großen annotierten und nicht annotierten Korpora,
  2. Parameter-Smoothing zur Behandlung seltener Ereignisse,
  3. Behandlung unbekannter Wörter, sowie
  4. dem eigentlichen Parser.
Die Komponenten bzw. Teile der Komponenten werden von den Seminarteilnehmern zuerst theoretisch erarbeitet, anschließend konzipiert und implementiert.

Die Veranstaltung beginnt mit einem Überblick über die einzusetzenden Methoden sowie geeigneter Datenstrukturen. Anschließend erfolgt die Ausarbeitung ausgewählter Komponenten.

Als Programmiersprachen kommen ANSI C und C++ zum Einsatz, die für diese Art von Problemen eine sehr effiziente Umsetzung erlauben.

Literatur:
Gerrit Bloothooft und S. Young. Corpus-Based Methods in Language and Speech Processing. Kluwer Academic Publishers, 1997.

Eugene Charniak. Statistical Language Learning. MIT Press, Cambridge, MA, 1993.

Stephen C. Dewhurst und Kathy S. Stark. Programming in C++ (2nd edition). Prentice Hall, New Jersey, 1995.

Brian W. Kernighan und Dennis M. Ritchie. The C Programming Language (2nd edition). Prentice-Hall, New Jersey, 1988.

Brigitte Krenn and Christer Samuelsson. The Linguist's Guide to Statistics. A compendium for a course in Statistical Approaches in Computational Linguistics, 1996.

L. R. Rabiner. A tutorial on hidden Markov models and selected applications in speech recognition. Proceedings of the IEEE, 77(2), 1989.

Robert Sedgewick. Algorithms. Addison-Wesley, 1988.

Stellung im Studienplan:
Hauptseminar

Voraussetzungen:
Gute Kentnisse in C oder C++.

Scheine:
Implementation und Dokumentation eines Programmierprojektes.

Bemerkung:
Für die Durchführung des Programmierprojektes ist während des Semesters ein Aufwand von 2 - 4 Stunden pro Woche zusätzlich zur Veranstaltung einzuplanen.


Letzte Änderung: 4. November 1997, Thorsten Brants