NEGRA: Nebenläufige grammatische Verarbeitung

NEGRA ist ein Gemeinschaftsprojekt von Wissenschaftlern aus der Computerlinguistik und der Informatik. Ziel ist Entwicklung neuer Technologien zur grammatischen Verarbeitung. Dies geschieht durch die Entwicklung neuer Berechnungsverfahren sowie die Kombination und Weiterentwicklung von Wissenschaftsbereichen, die bisher getrennte Ansätze verfolgt haben.

NEGRA verbindet linguistische Forschung, empirische Untersuchungen von Sprachdaten und die Entwicklung von Berechnungsverfahren. In dem Projekt werden aktuell gesammelte Sprachdaten mit linguistischen Interpretationen verbunden. Die so erzeugten Korpora bieten somit adäquate Beschreibungen tagtäglich auftretender Sprachphänomene sowie Angaben über deren Häufigkeit. Statistische Verarbeitungsverfahren nutzen diese Häufigkeitsverteilungen, um neue, bisher ungesehene Sprachdaten zu analysieren. Sie lernen anhand voranalysierter Daten und liefern anschließend eine sehr robuste und fehlertolerante Verarbeitungsmethode. Constraintbasierte Parser hingegen nutzen explizit, in der Regel manuell kodiertes linguistisches Wissen, um ebenfalls Analysen neuer Texte zu erstellen. Schwerpunkt sind nebenläufige Berechnungsverfahren, die durch quasi-parallele Prozesse große Effizenz erlauben.

Wie die constraintbasierte und die statistikbasierte Verarbeitung unter Beibehaltung ihrer jeweiligen Vorteile zusammengeführt werden können, ist ein ungelöstes Problem, an dem das Projekt NEGRA arbeitet. Genau diese Zusammenführung verspricht entscheidende Fortschritte für die Sprachverarbeitung.

Als wichtiges Teilergebnis wurde im Projekt NEGRA das erste deutsche linguistisch interpretierte Textkorpus aufgebaut. Es besteht zur Zeit aus aus ca. 20.000 Sätzen Zeitungstext der Frankfurter Rundschau und wächst täglich. Die Analysen wurde unter Verwendung der neu entwickelten Anätze semiautomatisch erstellt und bilden so in einem Bootstrapping-Prozess die Grundlage für Untersuchungen über die Verwendung von Sprache, das automatische Lernen und die Weiterentwicklung der Parsingtechnologie auch außerhalb des Sonderforschungsbereiches.
Eine vorläufige version des Fortsetzungsantrags ist verfügbar.