Hauptseminar Distributionelle Semantik
Hauptseminar
Wintersemester 2011/12
Stefan Thater
Montag, 14-16 Uhr, Konferenzraum 2.11
Inhalt
Distributionelle Modelle der Wortbedeutung spielen in der korpusbasierten lexikalischen Semantik eine zentrale Rolle. Diese Modelle basieren auf Harris' (1954) distributioneller Hypothese, der zufolge die Bedeutungsähnlichkeit zwischen zwei Wörtern mit der Ähnlichkeit der Kontexte korreliert, in denen die Wörter vorkommen. Die Bedeutung einzelner Wörter wird durch sogenannete Kontextvektoren repräsentiert, die die statistische Verteilung des Wortes über relevante sprachliche Kontexte kodieren und als Punkte im „semantischen Raum“ aufgefasst werden können. Semantische Ähnlichkeit zwischen zwei Wörtern kann mittels gängiger Methoden der linearen Algebra auf einfache Weise aus diesen Kontextvektoren berechnet werden.
In diesem Seminar werden wir anhand aktueller Literatur zum Thema den Stand der Forschung untersuchen. Dabei werden wir uns auf zwei Fragestellungen konzentrieren:
- Ambiguität: In einfachen distributionellen Modellen kodieren Kontextvektoren die Kontexte aller Vorkommen eines Wortes – unabhängig von der Bedeutung des Wortes im jeweiligen Kontext. Wie kann man die Kontextvektoren „disambiguieren,“ so dass sie nur die Bedeutung eines Wortes in einem gegebenen Kontext wiederspiegeln?
- Kompositionalität: Kontextvektoren sind üblicherweise nur für Wörter definiert. Wie kann man geeignete Vektor-Repräsentationen für komplexe Ausdrücke (Phrasen, Sätze) aus ihren Teilausdrücken berechnen?
Das Seminar kann auf Wunsch auch als Proseminar anerkannt werden.
Voraussetzungen
Grundkenntnisse über Korpuslinguistik und statistische Methoden.