Ort: Geb. 17 Raum 5.09
Zeit: Di 9-11
In dem Projektseminar geht es um die Implementierung effizienter und robuster statistischer Methoden der Sprachverarbeitung am Beispiel von Part-of-Speech Tagging und stochastischem Parsing. Auf diesen Techniken basiert eine große Zahl existierender linguistischer Anwendungen.
Stochastische Tagger und Parser bestehen aus folgenden Komponenten:
Die Veranstaltung beginnt mit einem Überblick über die einzusetzenden Methoden sowie geeigneter Datenstrukturen. Anschließend erfolgt die Ausarbeitung ausgewählter Komponenten.
Als Programmiersprachen kommen ANSI C und C++ zum Einsatz, die für diese Art von Problemen eine sehr effiziente Umsetzung erlauben.
Literatur:
Gerrit Bloothooft und S. Young. Corpus-Based Methods in Language and Speech Processing. Kluwer Academic Publishers, 1997.
Eugene Charniak. Statistical Language Learning. MIT Press, Cambridge, MA, 1993.
Stephen C. Dewhurst und Kathy S. Stark. Programming in C++ (2nd edition). Prentice Hall, New Jersey, 1995.
Brian W. Kernighan und Dennis M. Ritchie. The C Programming Language (2nd edition). Prentice-Hall, New Jersey, 1988.
Brigitte Krenn and Christer Samuelsson. The Linguist's Guide to Statistics. A compendium for a course in Statistical Approaches in Computational Linguistics, 1996.
L. R. Rabiner. A tutorial on hidden Markov models and selected applications in speech recognition. Proceedings of the IEEE, 77(2), 1989.
Robert Sedgewick. Algorithms. Addison-Wesley, 1988.
Stellung im Studienplan: Hauptseminar
Voraussetzungen:
Gute Kentnisse in C oder C++.
Scheine:
Implementation und Dokumentation eines Programmierprojektes.
Bemerkung:
Für die Durchführung des Programmierprojektes ist
während des Semesters ein Aufwand von 2 - 4 Stunden pro Woche zusätzlich
zur Veranstaltung einzuplanen.