Hans Uszkoreit - Courses

Hans Uszkoreit: VL Einführung in die Computerlinguistik

Hauptansätze in der Sprachverarbeitung

Die wichtigsten Ansätze und Verfahren in der Sprachverarbeitung

Die Idee, den Rechner für die Verarbeitung von natürlicher Sprache einzusetzen, ist so alt wie der Computer selbst. Seit einem halben Jahrhundert versucht man also bereits, dem Computer die menschliche Sprache "beizubringen".

Am Anfang war es vor allem die Vision der vollautomatischen Übersetzung von Texten, die die Computerlinguisten in ihren Bann zog. Die ersten vorgeschlagenen Verfahren, z.B. eine einfache Wort-für-Wort Übertragung des Textes, zeigen einerseits den Grad an wissenschaftlicher Naivität, mit der man damals dem Problem zu Leibe rückte; sie verdeutlichen andererseits aber auch die bedeutenden Fortschritten, die in den vergangenen Jahrzehnten erreicht wurden.

Es lassen sich vier große Klassen von Ansätzen unterscheiden, die zugleich charakteristisch für Entwicklungsphasen des Fachgebiets sind. Die folgende Abbildung soll ein ungefähres Bild von diesen Phasen geben.

Erste Phase: Direkte Programmierung

In den Systemen der direkten Programmierung wurde kein Unterschied zwischen der sprachlichen Kompetenz und der sprachlichen Performanz gemacht. Es gab daher keine klare Unterscheidung zwischen Grammatik und Verarbeitung. Das Wissen über die Struktur einer deutschen Nominalphrase konnte z.B. über mehrere FORTRAN Prozeduren verteilt sein, die auch Information über die Struktur anderer Phrasentypen enthielten.

Beispiele für Systeme dieser Klasse sind die Übersetungssysteme SYSTRAN [ref] und SUSY [ref], sowie das System SHRDLU für die [ref]. Trotz vieler geschickter Einzellösungen sind diese Systeme für die Kompetenzmodellierung nicht interessant. Eine Kompetenzerweiterung ist nicht möglich, ohne das Verarbeitungsprogramm zu ändern. Auch die Performanzmodellierung in diesen Systemen ist nur von geringem theoretischen Interesse. Kognitionswissenschaftliche Erkenntnisse haben bei dem Entwurf kaum eine Rolle gespielt. Die Systeme haben auch ein sehr geringes Anwendungspotential. Nur sehr wenige Systeme sind je zur Anwendungsreife gelangt. Ihre Erweiterung, Anpassung und Wartung wäre unter dem Maßstab heutiger Softwaretechnologie auch viel zu kostspielig. Eine interessante Ausnahme stellt SYSTRAN dar, das mit immensen Kosten weiterentwickelt wurde, und heute noch an einigen Stellen im Einsatz ist.

Zweite Phase: Spezielle computerlinguistische Verfahren

Die zweite Klasse von Ansätzen steht für eine Phase der Forschung, in der man spezielle Verfahren für die Modellierung von Kompetenz und Performanz geschaffen hat. Hierzu gehören die Augmented Transition Networks [ref], eine sehr mächtige Generalisierung von rekursiven Automaten für die Kodierung von Grammatiken. Zu dieser Klasse gehören auch verschiedene Erweiterungen von Phrasenstrukturgrammatik-Modellen, die speziell für die Sprachverarbeitung entwickelt wurden. Die Grammatiken verfügen bereits über ein Inventar an Merkmalsoperationen. Die Repräsentationssysteme haben aber keine klar definierte Semantik.

Die Modelle dieser Phase erlauben fast durchgängig die Integration prozeduraler Anteile in die Grammatiken. Grammatikregeln können Programmiersprachenkode enthalten bzw. Prozeduren aufrufen. Diese Strategie ist auch unter dem Namen procedural attachment bekannt.

Die Ansätze haben zwei entscheidende Nachteile. Dadurch, daß die Repräsentationssprachen für das linguistische Wissen keine von dem jeweiligen Verarbeitungsmodell unabhängige Semantik haben und auch wegen der Verwendung von Prozeduraufrufen ist eine deklarative Kompetenzmodellierung ausgeschlossen. Eine direkte Übernahme von linguistischen Analysen ist ebenfalls nicht möglich, da die Modelle nicht den in der Linguistik verwendeten entsprechen. Trotzdem stellen sie — auch in den implementierten linguistischen Lösungen — im Vergleich mit der direkten Programmierung einen erheblichen Fortschritt dar.

In der Performanzmodellierung gab es in dieser Phase ebenfalls große Fortschritte. Die meisten heute noch verwendeten Parsingverfahren wurden in dieser Zeit entwickelt. Es gab auch die ersten Verarbeitungsverfahren, die zumindest in Ansätzen psycholinguistischen Beobachtungen Rechnung tragen. Das bekannteste Beispiel für solche Verfahren ist das sogenannte psychologische Parsing [ref Marcus].

Für einige Systeme dieser Phase wurden große Grammatiken entwickelt. [refs] Die Entwicklung dieser Grammatiken dauerte zwischen sechs und zwölf Jahren. Es gab bereits einige Werkzeuge für die Entwicklung großer linguistischer Wissensbasen, aber noch kaum komfortable Entwicklungsumgebungen, wie wir sie heute gewohnt sind.

Beispiele für große Systeme dieser Klasse sind LUNAR, TEAM mit den linguistischen Komponenten DIALOGIC und DIAGRAM, EUROTRA,

Das Anwendungspotential dieser Systeme ist begrenzt, weil sie in der Effizienz und besonders auch in der Robustheit noch nicht die Anforderungen erfüllen, die an vermarktbare Systeme gestellt werden. Einige Systeme haben es aber zur Marktreife gebracht. Das Datenbanksystem F&A (deutsch: Q&A) wird seit vielen Jahren mit natürlichsprachlichen Schnittstellen für mehrere Sprachen verkauft. Das von SIEMENS (später SIEMENS-NIXDORF) entwickelte maschinelle Überstzungssystem METAL ist ebenfalls auf dem Markt erhältlich.

Dadurch, daß die Entwicklungszeit von natürlichsprachlichen Systemen sehr lang ist, stammen die meisten heute verfügbaren Produkte aus dieser zweiten Entwicklungsphase der Sprachverarbeitung.

Dritte Phase: Deklarative Formalismen

Die dritte Phase der Sprachverarbeitung ist durch die radikale Trennung von Kompetenz- und Performanzmodellierung gekennzeichnet. So wie es in der Softwaretechnologie und in der Wissensrepräsentation einen starken Trend zur deklarativen Spezifikation gab, versuchten auch die Computerlinguisten, deklarative Formalismen für die Spezifikation sprachlichen Wissens bereitzustellen. Damit hoffte man, die Entwicklungszyklen für linguistische Wissensbasen zu verkürzen, eine bessere Beschreibung sprachlicher Kompetenz zu erreichen und das formalisierte Wissen wiederverwendbar zu machen.

In den achtziger Jahren entstanden erstmals Beschreibungsmodelle, die sowohl in der theoretischen Linguistik als auch in der maschinellen Sprachverarbeitung Verwendung finden. Damit bekamen die Linguisten die Möglichkeit, ihre Grammatiken auf dem Computer zu testen. Die Forschungsgruppen in der Sprachverarbeitung hingegen konnten nun linguistische Theorien und Analysen direkt in ihre Systeme übertragen.

In der Syntax sind es insbesondere die Formalismen der Unifikationsgrammatik, die heute in der Forschung bevorzugt werden. Diese Formalismen werden in [ref] eingehend besprochen. In der Semantik sind es Beschreibungssysteme wie die DRT [ref] und die Situationssemantik [ref], die sowohl in der Linguistik als auch in der Sprachverarbeitung verwendet werden.

Für die Kompetenzmodellierung bedeutete diese Entwicklung einen großen Fortschritt. Die neuen Formalismen stellten die Verbindung zwischen den bestformalisierten modernen linguistischen Theorien und den fortgeschrittensten Methoden der KI zur logischen Spezifikation von Wissen her. Grammatiken konnten nun viel besser strukturiert werden. Komfortable Entwicklungsplattformen für das Kodieren großer Grammatiken wurden implementiert. Dadurch verringerte sich die durchschnittliche Entwicklungszeit von Grammatiken ganz erheblich. Es gelang auch erstmals, grammatisches Wissen zwischen verschiedenen Formalismen zu portieren. DieVorteile der neuen Formalismen für das sogenannte linguistic engineering zeigt sich z.B. in dem Umstand, daß nahezu alle laufenden Projekte, in denen große Grammatiken entwickelt werden, diese Entwicklung mit unifikationsgrammatischen Formalismen durchführen.

Der größte Nachteil der rein deklarativen Ansätze war und ist das Fehlen von effizienten Verarbeitungsmethoden für die neuen Formalismen. Zwar wurden parallel zur Weiterentwicklung der Formalismen auch Verbesserungen der Verarbeitungsalgorithmen erreicht, jedoch haben die implementierten Systeme erst heute die Effizienz der Systeme der zweiten Phase erreicht.

Zur Zeit wird in der Performanzmodellierung für die deklarativen Formalismen eine der größten Herausforderungen für die Forschung gesehen. Dabei sind es vor allem drei Klassen von Methoden, die in verschiedenen Varianten und Kombinationen untersucht und weiterentwickelt werden.

• Methoden der Kompilation sollen Unifikationsgrammatiken oder Teile dieser Grammatiken in Datenstrukturen überführen, die eine effizientere Verarbeitung ermöglichen. Diese Zielformate können z.B. endliche Automaten oder Phrasenstrukturbäume sein.

• Methoden der Kontrolle sollen die deduktive Verarbeitung durch die Verwendung von Präferenzen und Probabilitäten steuern.

• Lernmethoden sollen eingesetzt werden, um auf der Basis von Sprachverwendungssituationen häufig abgeleitete Strukturen oder Ableitungsgeschichten zu lernen.

Vierte Phase: Statistische und Neuronale Verfahren

Wie bereits angemerkt, haben sich in der akustischen Verarbeitung gesprochener Sprache statistische Methoden als sehr erfolgreich erwiesen. Seit einigen Jahren hat man nun verstärkt statistische Verfahren auch in anderen Bereichen der Sprachverarbeitung eingesetzt. Zugleich werden auch neuronale/konnektionistische Ansätze in der Sprachverarbeitung ständig weiterentwickelt. Mit den Einsatz solcher Verfahren will man mehrere Probleme zu lösen. Das ungelöste Problem der Formalisierung des gesamten sprachlichen Wissens der Menschen soll durch statistisches oder konnektionistisches Lernen ersetzt werden. Durch ein durchgängig probabilistisches Modell soll die noch fehlende Robustheit sprachverarbeitender Systeme erreicht werden. Durch die Einfachheit der statistischen Verarbeitungsmodelle soll eine höhere Effizienz erreicht werden.

Trotz bemerkenswerter Anfangserfolge haben sich die rein statistischen Verfahren aber bisher nur als sehr eingeschränkt verwendungsfähig erwiesen. Gute Erfolge hat man beim statistischen Tagging erzielt, das heißt bei der automatischen Wortklassenbestimmung für die Wörter großer Textmengen. Sehr vielversprechend waren auch erste Ergebnisse bei der vollautomatischen statistischen Textübersetzung. Hier wurden auf der Basis großer parallel in beiden Sprachen vorliegender Textmengen die Wahrscheinlichkeiten für die Abbildung von Wörtern in Abhängigkeit vom lokalen Kontext bestimmt. In kurzer Zeit wurde für einen sehr eingeschränkten Gegenstandsbereich eine Qualität der Übersetzung erreicht, die mit der der großen traditionellen Übersetzungssysteme durchaus mithalten konnte. Die Nachteile waren: Die Anwendung auf andere Gegenstandsbereiche ist ohne aufwendiges Neutraining nicht möglich. Die Erweiterung auf größere Gegenstandsbereiche scheint derzeit praktisch unmöglich. Parallele Textmengen in der geforderten Größe gibt es für sehr wenige Gegenstandsbereiche. Die Verarbeitungszeit für einen einzigen Satz erreichte bald ein Vielfaches der Verarbeitungszeit in traditionellen Systemen.