Ort: IKP Hörsaal
Zeit: 27.09.99 - 30.09.99, 10 - 13 Uhr und 14 - 17 Uhr
Website with introduction to statistics at http://www.ruf.rice.edu/~lane/hyperstat/index.html
Statistische Methoden erhalten in der Computerlinguistik eine immer größere Bedeutung, insbesondere im Bereich der Sprachtechnologie. Ein großer Teil der Anwendungen wäre heute ohne den Zugriff auf statistische Methoden nicht mehr möglich.
Statistische Verfahren nutzen Häufigkeitsverteilungen in Text- oder Sprachkorpora aus, um Aussagen über neue, vorher ungesehene Daten zu machen und somit deren Analyse zu ermöglichen. Sie heben damit auch den binären Grammatikalitätsbegriff (grammatikalisch vs. nicht grammatikalisch) auf und erlauben über die Zuordnung einer Wahrscheinlichkeit eine feinere Abstufung (mehr oder weniger grammatikalisch).
Dieses Seminar bietet eine grundlegende Einführung in die
Wahrscheinlichkeitstheorie. Darauf aufbauend werden schrittweise die für die
Sprachverarbeitung benötigten Konzepte von stochastischen Prozessen,
Markov-Ketten, Markov-Modellen und stochastischen Grammatiken
vorgestellt. Schließlich wird als ausgewählte Anwendung das Part-of-Speech
Tagging vorgestellt.
Literatur:
Jürgen Bortz. Statistik für Sozialwissenschaftler. Springer, Berlin, 1993.
Christopher Butler. Statistics in Linguistics. Blackwell, Oxford, 1985.
Eugene Charniak. Statistical Language Learning. MIT Press, Cambridge, MA, 1993.
Brigitte Krenn and Christer Samuelsson. The Linguist's Guide to Statistics. A compendium for a course in Statistical Approaches in Computational Linguistics, 1996. (electronic version)
Erwin Kreyszig. Statistische Methoden und ihre Anwendungen. van den Hoeck & Ruprecht, Göttingen, 1998.
Christopher Manning and Hinrich Schütze. Foundations of Statistical Natural Language Processing. MIT Press, Cambridge, MA, 1999.
Voraussetzungen:
keine.
Scheine:
Klausur am 29.10.1999.
Bemerkung:
Bearbeiten der Übungsaufgaben ist eine gute Übung für die Klausur.