Computational Linguistics & Phonetics Computational Linguistics & Phonetics Fachrichtung 4.7 Universität des Saarlandes
home

research

projects

publications

teaching

MG3: Statistical Methods for NLP

Vorlesung (9 LP)
B.Sc.(CL), Pflichtveranstaltung
Leitung: Matthew Crocker and Enrico Lieblang

Zeit:

Vorlesung: Mo 16-18, Do 14-16

Übung: Di 16-18


Ort: Seminarraum
Beginn: 17.4.2008
Lectures will be in German and English

Inhalt

Statistische Methoden erhalten in der Computerlinguistik eine immer größere Bedeutung, insbesondere im Bereich der Sprachtechnologie. Ein großer Teil der Anwendungen wäre heute ohne den Zugriff auf statistische Methoden nicht mehr möglich.
Statistische Verfahren nutzen Häufigkeitsverteilungen in Text- oder Sprachkorpora aus, um Aussagen über neue, vorher ungesehene Daten zu machen und somit deren Analyse zu ermöglichen. Insbesondere erlauben es statistische Verfahren, linguistischen Strukturen (z.B. Parsebäumen) Wahrscheinlichkeiten zuzuordnen, die dann für die Verarbeitung dieser Strukturen eingesetzt werden können (z.B. zur Auflösung von Mehrdeutigkeiten).

Im Einzelnen sollen folgende Themen behandelt werden:

1. Mathematische Grundlagen

  • Verteilungen, Zufallsvariable
  • Schätztheorie, Testtheorie
  • Stochastische Prozesse

2. Korpuslinguistische Untersuchungen

  • Frequenzen, Proportionen
  • Kollokationen
  • Informationstheorie

3. Lernverfahren und Verarbeitungsverfahren

  • Part-of-Speech Tagging
  • Stochastisches Parsing, Viterbi Algorithm
  • Classifiers: Naive Bayes, Decision Trees

 

Scripts & Overheads

Teil I (Lieblang):

April 18: Skript

April 24: Übung 1

May 6: Übung 2

May 12: Übung 3

June 20: Übung 4, Normal Dist, xQuadrat

Teil II (Crocker)

For details about tutorials, regularly visit Garance's tutorial page

June 3: Tutorial 1 (Due June 8)

June 5: Lecture 1 "Corpora"

June 9: Lecture 2 "Information Theory I"

June 10: Lecture 3 "Information Theory II"

June 16: Lecture 4 "Applications of Information Theory"

June 17: Lecture 5 "Bayes Classifiers"

June 23: Lecture 6 "Decision Trees"

June 24: Lecture 7 "Clustering & Evaluation"

July 1: Lecture 8 "Probabilistic CFGs I"

July 3: Lecture 9 "Probabilistic CFGs II"

 

Klausur: 14.07.08 @ 16:00-18:00 Uhr (120 Minuten)

Erlaubte Hilfsmittel: Vorlesungsmitschrift, Übungsmitschrift, Taschenrechner, Folien, Skripte, sonstige selbsterstellte Unterlagen.

Klausur location: Noch nicht bekannt

Anmeldefrist: Montag 30.06.08 !!

Wichtig!: Insgesamt 50% Punkte von allen Übungen müssen erreicht werden, um an der Klausur teilzunehmen.

Readings

Christopher Manning and Hinrich Schütze, 1999. Foundations of Statistical Natural Language Processing. MIT Press, Cambridge, MA.

Bauer, 1968. Wahrscheinlichkeitstheorie und Grundzüge der Masstheorie. Berlin.


Thorsten Brants, 2000. TnT - A Statistical Part-of-Speech Tagger. In Proceedings of the Sixth Conference on Applied Natural Language Processing ANLP-2000, Seattle, WA.

Jürgen Bortz, 1993. Statistik für Sozialwissenschaftler. Springer, Berlin.

Chris Brew and Marc Moens, 1999. Data-Intensive Linguistics.
Material: Tutorial and Files (empirically_unverifiable.txt, exatext1.txt, exatext2.txt, sawyr10.txt, sherlock.txt).

Christopher Butler, 1985. Statistics in Linguistics. Blackwell, Oxford.

Eugene Charniak, 1993. Statistical Language Learning. MIT Press, Cambridge, MA.

Kenneth Ward Church, 1994. Unix for Poets.

Robert Dale, Hermann Moisl and Harold Somers (Hrsg.), 2000. Handbook of Natural Language Processing. Marcel Dekker, New York.

Ralf Klabunde et al. (Hrsg.), 2004. Computerlinguistik und Sprachtechnologie, 2. Auflage. Spektrum-Verlag, Heidelberg.

Brigitte Krenn and Christer Samuelsson, 1996. The Linguist's Guide to Statistics. A Compendium for a Course in Statistical Approaches in Computational Linguistics.

Erwin Kreyszig, 1998. Statistische Methoden und ihre Anwendungen. van den Hoeck & Ruprecht, Göttingen.

Ruth Kusterer, 2004. Linux-Tools für Computerlinguisten.

Ruslan Mitkov (Hrsg.), 2003. The Oxford Handbook of Computational Linguistics. Oxford University Press, Oxford.

David M. Lane, 2000. HyperStat Online.

Tony McEnery, 1996. Corpus Linguistics. Edinburgh University Press.

P. Oakes, 1998. Statistics for Corpus Linguistics. Edinburgh University Press.