Hans Uszkoreit: VL Einführung in die Computerlinguistik
 
 

Motivation der Modellierung von Sprache auf dem Computer

Es gibt zwei gewichtige Gründe, Sprache auf dem Computer zu modellieren. Der erste Grund ist der Bedarf an Softwareanwendungen, die durch die Verwendung oder Bearbeitung menschlicher Sprache den Computerbenutzer besser bei seiner Arbeit unterstützen. Das ist die ingenieurwissenschaftliche Motivation der angewandten Computerlinguistik. Sie stand bereits hinter den ersten Experimenten mit natürlichsprachlichen Systemen, Computerprogrammen, die Wissen über die menschliche Sprache verwenden. Der zweite Grund ist das Bedürfnis, Sprache und Kognition besser zu verstehen, also der wissenschaftliche Erkenntnisgewinn. Aus den Versuchen, den Menschen als Vorbild für die maschinelle Sprachverarbeitung zu nehmen und aus dem Transfer von linguistischen Theorien und Beschreibungen in die Anwendungen entstand die theoretische Computerlinguistik, in der es um Theorien der menschlichen Sprache geht.

Beginnen wir mit der ingenieurwissenschaftlichen Motivation. Das Werkzeug Computer wird mächtiger noch, wenn es den Menschen bei der Kommunikation unterstützt. Ein großer Anteil der sprachlichen Kommunikation geschieht durch Texte. Die ersten sprachverarbeitenden Systeme sollten nicht weniger leisten, als Texte von einer Sprache in die andere zu übersetzen. So begann die Forschung mit der schwersten und ehrgeizigsten Aufgabe, die man sich vorstellen kann, denn eine gute Übersetzung durch den Menschen erfordert nicht nur ein tiefes Verständnis der zu übersetzenden Texte, sondern überdies die solide Kenntnis zweier Sprachen. Man wollte also eine Aufgabe modellieren, die längst nicht alle Menschen beherrschen. Heute ist das Problem der maschinellen Übersetzung zwar immer noch nicht zufriedenstellend gelöst, jedoch gibt es bereits eine Vielzahl von kommerziellen Softwareprodukten, die im täglichen Einsatz die Arbeit des menschlichen Übersetzers vereinfachen oder für den fremdsprachenunkundigen Benutzer grobe Überblicksübersetzungen anfertigen.

Weitere Beispiele für computerlinguistische Anwendungen, die den Menschen beim Umgang mit Texten unterstützen, sind Diktierprogramme, Rechtschreib- und Grammatiküberprüfung sowie das automatische Indizieren. Ein spannendes Anwendungsfeld eröffnet sich durch die Vernetzung des digitalisierten Wissens auf dem weltweiten Computernetz. Weil der größte Anteil der WWW-Information in Form von Texten vorliegt und weil nur die menschliche Sprache mächtig genug ist, um die Informationsfülle zu strukturieren, kommen auf die Computerlinguistik große intellektuelle Herausforderungen zu. Ohne sprachgestützte Strukturierung und Navigation wird sich die Informationsflut nicht bändigen lassen.

Das Werkzeug Sprache wird nützlicher noch, wenn es nicht nur für die Kommunikation mit Mitmenschen eingesetzt werden kann, sondern auch dazu beiträgt, die Verständigungsbarriere zwischen Mensch und Technik zu überwinden. Das Haupthindernis für die Akzeptanz des Computers ist ein Sprachproblem. Maschine und Mensch beherrschen verschiedene Sprachen. Der normale Benutzer tut sich schwer mit dem Erlernen der Computersprachen, seien es Datenbankabfragesprachen, Betriebssystemsprachen, oder Kommandosprachen für spezielle Anwendungen. Wenn der Computer zu einem allgemein akzeptierten Arbeitspartner des Menschen werden soll, so muß er auch in der Lage sein, dessen wichtigstes Informationsmedium zumindest soweit zu beherrschen, wie das für eine ergonomisch optimale Mensch-Maschine-Interaktion nötig ist.

Diese erweiterte Kommunikationsfähigkeit der Maschinen wird umso wichtiger werden, als der Computer Einzug in unsere Wohnzimmer, Küchen und Automobile halten wird. Hier trifft er auf Benutzer, die nicht durch ihre berufliche Ausbildung zum Erlernen von Computerkenntnissen angehalten werden.

Paradebeispiele für Anwendungen, die dem Menschen die Bedienung der Technik erlauben, ohne daß er unintuitive Computersprachen erlernen muß, sind natürlichsprachliche Schnittstellen zu Datenbanken, Betriebssystemen und Anwenderprogrammen. Doch erst durch die immensen Fortschritte bei der Verarbeitung gesprochener Sprache in den vergangenen zehn Jahren sind solche Anwendungen in greifbare Nähe gerückt, denn eine natürliche und ergonomische Interaktion erfordert den mündlichen Dialog. Bei diesen Anwendungen genügt bereits die Modellierung eines begrenzten Sprachausschnitts, um die Maschine in die Lage zu versetzen, Befehle oder Anfragen zu erkennen. Auch ist kein Verstehen im Sinne der menschlichen Sprachverarbeitung vonnöten, die Abbildung der mündlichen Eingaben auf Aktionen der Maschine ist jedoch bereits schwierig genug.

Aus der Arbeit an natürlichsprachlichen Anwendungen in der angewandten Computerlinguistik, der akustischen Signalverarbeitung und der angewandten KI ist eine neue ingenieurwissenschaftliche Disziplin entstanden. Die Sprachtechnologie – englisch: (human) language technology – hat nicht den Anspruch, die menschliche Sprachfähigkeit zu modellieren. Es geht vielmehr ganz pragmatisch darum, die Methoden für die Entwicklung nützlicher und kommerziell erfolgreicher Anwendungen. (Zu Forschungsstand und Methoden der Sprachtechnologie siehe Survey of the State of the Art in Human Language Technology.) In der Verarbeitung von Texten ist die Sprachtechnologie bezeichnenderweise heute bei Aufgabenstellungen erfolgreich, die im normalen menschlichen Gebrauch der Sprache keine Entsprechung finden, ja die der Mensch ohne technische Hilfsmittel gar nicht bewältigen kann. Beispiele sind das automatische Indizieren großer Textmengen, das eigentliche Information Retrieval und die effiziente Rohübersetzung.

Ganz andere Ziele verfolgt die theoretisch motivierte Computerlinguistik. Ihr Ziel ist der Gewinn von Erkenntnissen über die menschliche Sprache. Sie untersucht die Berechenbarkeit von formalen Modellen des sprachlichen Wissens und der menschlichen Sprachverarbeitung. Sie implementiert diese Modelle auf dem Computer, um sie zu validieren und ihre empirischen Konsequenzen zu untersuchen. Das soll nicht heißen, daß dieser Zweig der Forschung keine Anwendungsrelevanz beanspruchen darf. Sowohl durch ihre positiven als auch durch ihre negativen Resultate beeinflußt die theoretisch motivierte Forschung die Entwicklung von Anwendungen. Langfristig wird sie hoffentlich die Quelle für weitaus mächtigere industriell nutzbare Verfahren sein. So löblich ein Transfer von Ergebnissen aus der theoretisch motivierten in die ingenieurwissenschaftlich motivierte Forschung ist, so gefährlich ist doch auch ein Verkennen oder Verwischen der Unterschiede. Zu verschieden sind die Bewertungsmaßstäbe. Während die Auswahl von Ansätzen und Methoden in der Sprachtechnologie durch die kurzfristige Anwendbarkeit bestimmt ist, so ist es in der theoretischen Computerlinguistik das Erklärungspotential der Theorien und Modelle, die über ihren Einsatz und ihren Erfolg entscheiden.

In der theoretisch ausgerichteten Computerlinguistik unterscheiden sich sowohl in ihren Fragestellungen als auch in den Strategien zwei Traditionen: die linguistisch motivierte und die psychologisch motivierte Forschung. Wenngleich es auch vielfache einseitige und wechselseitige Beeinflussungen gegeben hat, sind die Traditionen doch noch nicht zusammengewachsen. Die linguistischen Theorien sind in erster Linie Beschreibungen des sprachlichen Wissens, das heißt der Regeln und Prinzipen, die bestimmen, welche möglichen Ÿußerungen wohlgeformte Ÿußerungen der jeweiligen Sprache sind. Wenn es in diesen Theorien auch Annahmen über die Verarbeitung der Ÿußerungen gibt, so sind diese sekundär. Genau entgegengesetzt ist die Prioritätensetzung in den psychologischen Modellen. Hier müssen die Theorien die empirischen Beobachtungen zur Rezeption und Produktion sowie zum Erlernen der Sprache erklären. Sofern linguistische Theorien für die Beschreibung des sprachlichen Wissens herangezogen werden, geschieht deren Bewertung im Hinblick auf Gebrauch und Akquisition der Sprache.

In der Computerlinguistik machen die kognitionspsychologisch orientierten Arbeiten traditionell nur einen kleinen Teil der Forschungsaktivitäten aus. In der Kognitionspsychologie hingegen, besonders in der Psycholinguistik, gab es bisher nur wenige Wissenschaftler, die ihre Modelle auf den Computer brachten und durch Simulation empirisch überprüften. Seit einigen Jahren sehen wir allerdings eine Zunahme psycholinguistischer Modellierung, sowohl in der Computerlinguistik als auch in der Psychologie. Dieses Forschungsgebiet ist dabei sich unter dem Namen Computer-Psycholinguistik (engl.: computational psycholinguistics) als neue Interdisziplin zu etablieren.