Projekt Schreibgebrauch
Analyse und Instrumentarien zur Beobachtung des Schreibgebrauchs im Deutschen
Dieses Projekt hat eine umfassende Beobachtung des Schreibgebrauchs mit Hilfe computerlinguistischer Methoden zum Ziel. Dabei werden Instrumentarien entwickelt, die es leichter machen als bisher, die tagtägliche Produktion von Schriftdeutsch für orthografische Untersuchungen auszuwerten. Die Projektpartner setzen neue Technologien ein, um ihre Kompetenzen und Ressourcen in der jeweils bestmöglichen Weise zu nutzen und zu ergänzen. Als empirische Grundlage dienen nicht nur Zeitungen, Zeitschriften und Bücher von "professionellen Schreibern", sondern auch Schülertexte und Internetbeiträge etwa in Blogs und in Foren. Die Methoden und die Ergebnisse der Datenerhebung werden so aufgearbeitet, dass sie dem Rat für deutsche Rechtschreibung als Bausteine für die künftige Normierungsarbeit dienen können.
An dem Projekt beteiligen sich das Institut für Deutsche Sprache in Mannheim, das Institut für Computerlinguistik der Universität des Saarlandes in Saarbrücken sowie die Wörterbuchverlage Bibliographisches Institut GmbH (Dudenverlag) in Berlin und Wahrig bei Brockhaus in Gütersloh. Das Verbundprojekt wird mit Mitteln des Bundesministeriums für Bildung und Forschung (BMBF) gefördert.
Die Fachrichtung Computerlinguistik an der UdS (Arbeitsgruppe Pinkal) ist für computerlinguistische und sprachtechnologische Aspekte des Projektes zuständig, insbesondere für die folgenden beiden Teilaufgaben:
Adaption computerlinguistischer Werkzeuge auf Internet-Texte
Die systematische Beobachtung des Schreibgebrauchs wird durch die automatische linguistische Analyse entscheidend unterstützt und zum Teil überhaupt erst ermöglicht: Mit Wortart-Taggern kann die Wortart von Textwörtern zuverlässig bestimmt werden, Lemmatisierer führen Wortformen auf ihren Wörterbuch-Eintrag zurück, und Parser und Chunker ermitteln die grammatische Struktur. Computerlinguistische Analysewerkzeuge sind fast immer auf Standardtexte (wie Zeitungs- und Zeitschriftenartikel, literarische Werke) abgestimmt und funktionieren schlecht oder gar nicht, wenn sie auf Texte angewandt werden, die sich nicht an die Standards von Rechtschreibung und Grammatik halten. Dies sind insbesondere Internet-Texte, wie wir sie z.B. in Weblogs, E-Mail, Twitter oder Diskussionsforen finden. Für die Beobachtung des Schreibgebrauchs sind diese Texte jedoch sehr wichtig: Auf der einen Seite entstehen diese Texte spontan und werden nicht redigiert, sodass Unsicherheiten im Sprachgebrauch (Rechtschreib- und Grammatikfehler, fehlende oder "freie" Interpunktion) hier besonders deutlich werden. Andererseits geben beabsichtigte Normabweichungen (zum Beipiel Verfremdungen der Schreibung wie "willz" für "willst", Kontraktionen ("gibts", "haste") Hinweise auf mögliche künftige Entwicklungen in Rechtschreibungen und Grammatik. Wir passen computerlinguistische Werkzeuge an Nicht-Standard-Texte an, und ermöglichen dadurch die Erschließung dieser Textsorten für die Analyse des Schreibgebrauchs.
Kontext- und Kollokationsanalyse
Für die systematische Beobachtung von Schreibgewohnheiten müssen für einzelne Rechtschreibregeln relevante Anwendungsfälle in großen Textkorpora identifiziert werden. Das ist oft nicht offensichtlich: Für die Frage, ob Adjektive in festen Verbindungen tendenziell groß oder klein geschrieben werden, ist ein Vorkommen von "gelbe Karte" relevant, wenn es sich um die Aktion des Schiedsrichters im Fußballspiel handelt oder eine daraus abgeleitete metaphorische Verwendung. Wenn es um gelbe Kartei- oder Ansichtskarten geht, liegt kein relevantes Vorkommen vor. Um relevanten Fälle zu identifizieren, muss der Kontext in die Analyse einbezogen werden. Dies gilt für die Groß- und Kleinschreibung, die Getrennt- und Zusammenschreibung ("auseinandersetzen" und "auseinander setzen") und insbesondere für die Zeichensetzung. Wir entwickeln für das Schreibgebrauch-Projekt differenzierte Verfahren zur Kontextanalyse. Wir verwenden und kombinieren dabei Verfahren für tiefe grammatische Verarbeitung, statistische, Korpus- und Kookkurrenzbasierte Verfahren (n-Gramm-Analysen, distributionell-semantische Verfahren zur Lesarten-Unterscheidung) und differenzierte Kollokationsanalysen.