Grundlagen
Allgemeine Literatur
 Irene Cramer (Innovations Software Technology GmbH (Bosch Group), Immenstaad am Bodensee), Sabine Schulte im Walde (Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart) Wir geben einen Überblick über grundlegende Referenzen zu Linguistik, Computerlinguistik und Sprachtechnologie, einschließlich populärwissenschaftlicher Literatur und deutscher Grammatiken.
Linguistische Bereiche
Phonetik/Phonologie
 Eva Lasarcyk (Institut für Computerlinguistik und Phonetik, Universität des Saarlandes) Der linguistische Teilbereich der Phonetik bzw. Phonologie beschäftigt sich allgemein mit Sprachlauten, wobei die Phonetik die Eigenschaften der möglichen Laute aller Sprachen untersucht und sich die Phonologie mit den bedeutungsunterscheidenden Lauten (Phonemen) und Gesetzmäßigkeiten innerhalb einer bestimmten Sprache beschäftigt. Die Phonetik lässt sich unterteilen in artikulatorische, akustische und perzeptive (auditive) Phonetik; die Phonologie u. a. in generative Phonologie, nicht-lineare Phonologien und Optimalitätstheorie.
Morphologie
 Anke Lüdeling (Korpuslinguistik, Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu Berlin) Die Morphologie beschäftigt sich mit der Analyse (oder Erzeugung) von komplexen Wörtern. Dabei unterscheidet man die Flexion, die verschiedene Wortformen eines Lemmas erzeugt und die Wortbildung, die komplexe Lemmata bildet. Die Referenzen beschränken sich auf allgemeinere Werke; Texte zu ganz spezifischen morphologischen Theorien (distributed morphology, constructional morphology etc.) sind nicht angegeben.
Syntax
 Stefan Müller (Freie Universität Berlin) Die Syntax behandelt die Muster und Regeln, nach denen Wörter zu größeren funktionellen Einheiten wie Phrasen (Teilsatz) und Sätzen zusammengestellt und Beziehungen wie Teil-Ganzes, Abhängigkeit etc. zwischen diesen formuliert werden (Satzbau). In sprachverarbeitenden Systemen werden syntaktische Strukturen oft als Eingabe für eine Semantikkomponente zur Konstruktion von Bedeutungsrepräsentationen verwendet.
Semantik
 Stefan Thater (Institut für Computerlinguistik und Phonetik, Universität des Saarlandes) Das Kapitel konzentriert sich auf kompositionelle (Satz-) Semantik und Diskurssemantik. Auf den Themenbereich lexikalische Semantik wird nur am Rande eingegangen.
Pragmatik
 Martin Soffner (Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart) Für diese Zusammenstellung wurden schwerpunktmäßig klassische Texte zur Sprechakttheorie, Beiträge, die in der Griceschen Tradition stehen, sowie neuere Ansätze einer formalen Pragmatik, die einen Bezug zur Semantik aufweisen, ausgewählt.
Textlinguistik
 Irene Cramer (Innovations Software Technology GmbH (Bosch Group), Immenstaad am Bodensee) Die Textlinguistik erforscht, analysiert und klassifiziert sprachliche Einheiten (=Texte), die über die Satzebene hinausgehen (können). Im Mittelpunkt stehen dabei Aspekte wie: Textualität, Kohäsion und Kohärenz, Textsorten, Text- bzw. Informationstrukturen, kommunikative Funktionen und die Rezeption von Texten. Zwischen Textlinguistik und Diskurstheorie (siehe nächstes Kapitel Diskurs und Dialog) gibt es einige wichtige Verknüpfungspunkte, man beachte daher auch die Quellen in diesem Kapitel!
Diskurs und Dialog
 Ivana Kruijff-Korbayová (DFKI GmbH, Saarbrücken) Der Begriff Diskurs bezieht sich auf eine Sequenz von Aussagen in geschriebener oder gesprochener Sprache, in der Kontinuität durch Beziehungen auf verschiedenen Ebenen entsteht (u.a. lexikalische Kohäsion, anaphorische Referenz, Topik-Kontinuität, rhetorische Beziehungen). Der Begriff Dialog bezeichnet einen Diskurs, an dem mehrere Sprecher/Hörer beteiligt sind. Mit wachsender Anforderung an sprachtechnologische Systeme, die Information mit hoher Qualität liefern können, wächst auch der Bedarf an automatischer Diskursverarbeitung in Anwendungen wie Informationsextraktion, Textzusammenfassung, Question-Answering, Dialogsystemen. Referenzen zu den eigentlichen Dialogsystemen finden sich im sprachtechnologischen Bereich der Studienbibliographie.
Methoden und Ressourcen
Leihgaben
Mathematik
Mengenlehre und Logik
 Sabine Schulte im Walde (Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart) Dieses Kapitel enthält Referenzen für den Bereich der mathematischen Logik und bezieht sich auf die Teilgebiete der Mengenlehre (Mengen, Relationen, Funktionen, Axiomensysteme) sowie Aussagenlogik, Prädikatenlogik und Beweisverfahren.
Stochastik
 Stefan Evert (Institut für Kognitionswissenschaft, Universität Osnabrück) Statistische Methoden sind heutzutage aus der Computerlinguistik nicht mehr wegzudenken. Da es kaum möglich ist, die Vielfalt der angewandten Verfahren in ihrer ganzen Breite zu beschreiben, beschränkt sich diese Zusammenstellung auf grundlegende Werke und Lehrbücher.
Lineare Algebra
 Stefan Evert (Institut für Kognitionswissenschaft, Universität Osnabrück) Methoden der linearen Algebra werden in der modernen Computerlinguistik zur Beschreibung und Verarbeitung hochdimensionaler Merkmalsräume angewendet. Die hier genannten Werke sind größtenteils keine allgemeinen Lehrbücher, sondern beschreiben die speziellen Anforderungen typischer Anwendungen.
Informatik und Ingenieurwissenschaft
Theoretische Informatik
 Alexander Koller (Institut für Computerlinguistik und Phonetik, Universität des Saarlandes) In diesem Kapitel geht es um fundamentale Methoden der theoretischen Informatik, soweit sie für Computerlinguisten relevant sind. Die zentralen Themen sind die Theorie der formalen Sprachen und Automaten sowie die Berechenbarkeits- und Komplexitätstheorie (inkl. Laufzeitanalyse von Algorithmen); außerdem haben wir Standardreferenzen zu Graphentheorie und Methoden aus der Computational Logic angegeben.
Algorithmen und Datenstrukturen
 Irene Cramer (Innovations Software Technology GmbH (Bosch Group), Immenstaad am Bodensee) Eine grundlegende Ausbildung in Algorithmen und Datenstrukturen ist in jedem Computerlinguistik-Studium wie auch in allen Informatik-orientierten Fächern üblich. Dabei wird die Frage behandelt, wie Daten am besten verwaltet, verknüpft und manipuliert werden können (Datenstrukturen). Die möglichen Manipulationen der Daten zur Lösung bestimmter Probleme werden in Handlungsvorschriften (Algorithmen) an den Computer (etwa in Form von Programmen) übergeben.
Maschinelles Lernen
 Sabine Schulte im Walde (Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart) Maschinelles Lernen in der Computerlinguistik beinhaltet die Anwendung von mathematischen Algorithmen auf linguistische Fragestellungen. Das Ziel ist eine durch automatisches Lernen verbesserte Modellierung von Linguistik.
Mark-up-Technologien
 Thomas Burch (Kompetenzzentrum für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften, Universität Trier) Eine Auszeichnungssprache (engl. Markup Language) dient zur Beschreibung von Daten oder des Verfahrens, das zur Darstellung nötig ist. Es werden damit Eigenschaften, Zugehörigkeit und Verfahren von Einheiten (z.B. Wörtern, Sätzen etc.) beschrieben.
Programmierung
Perl
 Heike Zinsmeister (Fachbereich Sprachwissenschaft, Universität Konstanz)
Prolog
 Sabine Schulte im Walde (Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart)
Lisp
 Irene Cramer (Innovations Software Technology GmbH (Bosch Group), Immenstaad am Bodensee)
Java
 Irene Cramer (Innovations Software Technology GmbH (Bosch Group), Immenstaad am Bodensee)
(Sprach-)Signalverarbeitung
 Ingmar Steiner (Institut für Computerlinguistik und Phonetik, Universität des Saarlandes) Grundlagen der digitalen Speicherung und Verarbeitung von Sprachsignalen. Voraussetzung für jede Form von Sprachtechnologie, bei der gesprochene Sprache (als Ein- oder Ausgabe) verwendet wird.
Evaluierungsmethoden
 Frank Keller (School of Informatics, University of Edinburgh) Komplexe Sprachverarbeitungssysteme müssen systematisch evaluiert werden, um Leistungsvergleiche mit anderen Systemen anstellen zu können und um die Benutzbarkeit sicherzustellen.
Ressourcen
Korpora und Wörterbücher
 Sabine Schulte im Walde (Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart), Heike Zinsmeister (Fachbereich Sprachwissenschaft, Universität Konstanz) Korpora und Wörterbücher sind umfassende Datenquellen, die als Ressourcen in der Computerlinguistik eingesetzt werden: Korpora sind digitalisierte Sammlungen von Texten in geschriebener und/oder gesprochener Sprache, die eine bestimme Sprache oder Sprachverwendung repräsentieren sollen. Typischerweise sind die Textmengen enorm groß, um als Grundlage für empirische Linguistik verwendet zu werden, und werden mit linguistischen Informationen und Metadaten angereichert/annotiert. Der Bereich Wörterbücher steht repräsentativ für Nachschlagewerke und umfasst Lexika, Wörterbücher, Thesauri und Enzyklopädien; multi-linguale Werke sind ausgeschlossen. Dieses Kapitel bezieht sich hauptsächlich auf vorhandene und entstehende Ressourcen. Die Erstellung von Nachschlagewerken wird im Bereich "Lexikographie" abgedeckt.
Wortnetze und Ontologien
 Philipp Cimiano (Cognitive Interaction Technology Excellence Center (CITEC), Universität Bielefeld) Thema dieses Kapitels sind einerseits Wordnetze, d.h. Netze in denen Wörter aufgrund semantischer Relationen miteinander verknüpft sind. Solche Relationen sind z.B. Hyperonymie, Hyponymie, Synonymie, Antonymie, etc. Andererseits umfasst dieses Kapitel allgemein auch das Thema Wissensrepräsentation und konkret die Ontologien, die als explizite und formale Spezifikation der Konzeptualisierung einer bestimmten Domäne verstanden werden können.
NLP-Methoden
Basismethoden
Textsegmentierung
 Helmut Schmid (Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart) Textsegmentierung ist die Zerlegung von Texten in Sätze und Wörter, auch Tokenisierung genannt. Die Segmentierung chinesischer Texte ist ein Spezialgebiet mit eigenen Methoden.
Part-of-Speech-Tagging
 Helmut Schmid (Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart) Annotation von Wörtern mit eindeutiger Wortartinformation
Morphologische Analyse
 Frank Henrik Müller (ID Information und Dokumentation im Gesundheitswesen, Berlin) Durch automatische morphologische Analyse werden die Wörter eines Textes in ihre Komponenten wie z.B. lexikalische Morpheme sowie Flexions- und Wortbildungsmorpheme zerlegt. Diese Analyse ist Voraussetzung für viele weitere Verarbeitungsschritte wie z.B. syntaktisches Parsing.
Parsing
 Sven Naumann (Linguistische Datenverarbeitung, Universität Trier) Unter Parsing versteht man die Analyse von natürlicher Sprache. Dabei werden in der Regel Struktur und Beziehungen auf morphologischer, syntaktischer und/oder sematischer Ebene untersucht.
Komplexe Methoden
Word Sense Disambiguation
 Katrin Erk (Department of Linguistics, University of Texas at Austin) Bei Word Sense Disambiguation geht es darum, einem Wort im Kontext eine Lesart zuzuweisen, z.B. "Bank" (Geldinstitut) von "Bank" (Sitzgelegenheit) zu unterscheiden. Für diese Aufgabe werden meist Methoden des Maschinellen Lernens angewandt.
Anaphora Resolution
 Olga Ourioupina (Center for Mind/Brain Sciences, University of Trento) Anaphora Resolution (Anaphernauflösung oder Anaphernresolution) beinhaltet die Identifikation von natürlichsprachlichen Einheiten, die sich auf dieselbe Referenz beziehen (= Koreferenz). Koreferenzen sind ein wichtiger Bestandteil von sprachtechnologischen Anwendungen wie z.B. Informationsextraktion, Textverständnis und Textzusammenfassung.
Named Entity Recognition
 Irene Cramer (Innovations Software Technology GmbH (Bosch Group), Immenstaad am Bodensee) Unter Named Entity Recognition versteht man das automatische Auffinden und Markieren von Eigennamen und ähnlichen sprachlichen Strukturen (klassisch: Personennamen wie Vor- und Nachname, Ortsangaben, Organisationen, Datum, Geldbeträge etc.). Named Entity Recognition wird besonders im Information Extraction und Question Answering intensiv eingesetzt. Daneben gibt es aber auch interessante Anknüpfungspunkte zu den Bereichen Wortnetze und Ontologien bzw. Korpora und Wörterbücher. Es besteht traditionell eine enge Verwandtschaft zum Information Extraction, man beachte daher auch die Quellen in dem Kapitel!
Anwendungen
Module
Spracherkennung
 Jacques Koreman (Department for Language and Communication Studies, Norwegian University of Science and Technology, Trondheim), Dietrich Klakow (Lehrstuhl für Sprachsignalverarbeitung, Universität des Saarlandes) Sprache wird nicht direkt anhand vom Mikrofonsignal selbst erkannt, sondern anhand von Parametern, die die Verteilung der Energie im Frequenzspektrum des Mikrofonsignals charakterisieren. Mit Hilfe von statistischen Methoden (insbesondere Hidden-Markov-Modellierung) wird in diesem parametrisierten Signal eine Äußerung als Sequenz von akustischen Einheiten (Wörter, Laute) erkannt. Es können nur Sequenzen dieser Einheiten erkannt werden, die a) ein mögliches Wort formen (wenn die akustischen Modelle Laute darstellen) - dies wird im Lexikon definiert - und b) die einen möglichen Satz(teil) darstellen - dies wird durch das Sprachmodell festgelegt.
Sprachsynthese
 Dominika Oliver (IBM) Sprachsynthese ist die automatische Produktion von gesprochener Sprache auf Basis von Graphem-Phonem-Transkription. Ein Text-To-Speech-System sollte in der Lage sein, jeden beliebigen Text laut zu lesen. Es benutzt ein linguistisches Modul, das den Text analysiert, führt eine digitale Sprachsignalanalyse durch und generiert dadurch das entsprechende Sprachsignal.
Sprachgenerierung
 Kristina Striegnitz (Computer Science Department, Union College) Sprachgenerierung befasst sich mit der automatischen Produktion von Texten oder Äußerungen in natürlicher Sprache. Ausgehend von Information, die in einer logischen oder anderen nicht-linguistischen Repräsentation gegeben ist, entscheidet ein Sprachgenerierungssystem, was gesagt werden muss und wie es gesagt werden muss, um ein bestimmtes kommunikatives Ziel zu erreichen.
Textklassifikation
 Karl-Michael Schneider (Cataphora, Redwood City, California) Textklassifikation (auch Textkategorisierung) ist das automatische Zuordnen von Textdokumenten zu vordefinierten Klassen (Kategorien) durch ein Programm. In der Regel werden Techniken des maschinellen Lernens verwendet, um die Kriterien, nach denen Texte zugeordnet werden, aus Beispielen abzuleiten.
Textzusammenfassung
 Florian Wolf (mergeflow AG, München) Das Ziel von Systemen zur Textzusammenfassung ist, wichtige Stellen in einem oder mehreren Texten zu identifizieren. Diese wichtigen Textstellen werden dann entweder markiert bzw. extrahiert oder zu einem neuen, kürzeren Text (der Zusammenfassung) weiterverarbeitet.
Lexikographie
 Kristina Spranger (k+k information services GmbH, Fellbach) Computationelle Lexikographie ist an der Schnittstelle von Syntax, Lexikon und Semantik anzusiedeln. Die Lexikographie beschäftigt sich mit dem Erstellen von Lexikon-Information sowie der Interpretation der Daten. Die eigentlichen Datenquellen und entsprechende Projekte werden im Bereich Ressourcen vorgestellt.
Systeme
Dialogsysteme
 Verena Rieser (Centre of Environmental Change and Sustainability, School of GeoSciences, University of Edinburgh), Ivana Kruijff-Korbayová (DFKI GmbH, Saarbrücken) Das Anwendungsgebiet Dialogsysteme beschäftigt sich mit Entwurf, Umsetzung und Evaluation natürlichsprachlicher Benutzerschnittstellen. Dazu gehört die Erforschung und vereinfachte Abbildung menschlicher Dialogfähigkeit, wie zum Beispiel die Fähigkeit Dialogstrukturen zu erkennen, kontextabhängige Interpretationen und Entscheidungen zu treffen und Dialogbeiträge zu planen. Des weiteren beinhaltet der Bereich auch anwendungsorientierte Aspekte, wie die Umsetzung softwareergonomischer Prinzipien und Evaluierungsverfahren für bestehende Systeme. Aktuelle Herausforderung ist die Integration von Multimodalität und Multilingualität.
Multimodale Systeme
 Daniel Sonntag (DFKI GmbH, Saarbrücken) Multimodale Systeme sind Computersysteme, bei denen die Ein- und Ausgabe über mehr als ein Kommunikationsmedium möglich ist. Im Allgemeinen spricht man von multimodalen HCIs (Human Computer Interfaces) als Erweiterung zu nur textbasierten Internet-Suchmaschinen oder nur sprachbasierten Dialogsystemen, die auch gestische, haptische und graphische Daten verarbeiten können. Dadurch besteht die Möglichkeit, die für den situativen Kontext beste Ein- und Ausgabemodalität zu wählen oder verschiedene zu kombinieren. Die meisten Forschungsprojekte behandeln die so genannte multimodale Fusion und Fission, die gleichzeitige oder koordinierte Ein- und Ausgabe verschiedener Modalitäten.
Maschinelle Übersetzung
 Jonas Kuhn (Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart) Maschinelle Übersetzung war historisch die erste Anwendung, die in der Computerlinguistik angestrebt wurde. Gleichzeitig ist sie die vielleicht anspruchsvollste Anwendung, da im Prinzip nicht nur alle linguistischen Beschreibungsebenen in Analyse und Generierung modelliert werden müssen, sondern häufig für die Auflösung von Mehrdeutigkeiten zudem Situationswissen, allgemeines Weltwissen oder spezielles Domänenwissen erforderlich sind. Als Alternative oder Ergänzung zu symbolischen Ansätzen erfahren in den letzten Jahren datenbasierte Verfahren starke Aufmerksamkeit, mit denen aus großen Parallelkorpora die Parameter für statistische Übersetzungssysteme geschätzt werden.
Information Retrieval
 Karl-Michael Schneider (Cataphora, Redwood City, California) Information Retrieval ist das Auffinden von Informationen (Textdokumenten, Bildern etc.), die für eine gegebene Benutzeranfrage relevant sind, in Datenbanken oder im Internet. Das Ziel dabei ist, den Anteil relevanter Information zu maximieren und gleichzeitig den der irrelevanten Information zu minimieren.
Information Extraction
 Jochen Leidner Unter dem Arbeitsfeld Information Extraction (dtsch. Informationsextraktion, kurz IE) fasst man Methoden zusammen, die in der Lage sind, aus Sammlungen von unstrukturierten Textdokumenten Information über im Vorhinein bestimmte Entitäten (z.B. Namen von Personen, Orten, Unternehmen, Zeitangaben), Beziehungen (z.B. Rollen/Titel von Personen in Firmen), Sachverhalte und Ereignisse (z.B. Fälle von Drogenschmuggel über eine Grenze, Berichte über Akquise eines Unternehmens durch ein anderes Unternehmen) automatisch zu extrahieren, so dass extrahierte Beziehungen der strukturierten Bearbeitung und Speicherung durch den Computer, z.B. in relationalen Datenbanken ermöglicht wird. Da IE zweckorientiert ist und nicht in erster Linie den Erkenntnisgewinn an sich zum Ziel hat, ist sie den Ingenieursdisziplinen zuzuordnen.
Question Answering
 Irene Cramer (Innovations Software Technology GmbH (Bosch Group), Immenstaad am Bodensee) Question Answering Systeme erlauben es dem Benutzer, Fragen in natürlicher Sprache zu stellen und liefern natürlichsprachliche Antworten. Question Answering Systeme können domänenabhängig oder -unabhängig sein und die Antworten aus Korpora, Datenbanken oder dem Web extrahieren.
Data Mining und Text Mining
 Alexander Mehler (Universität Bielefeld) Text Mining befasst sich mit der automatischen Exploration von Information aus textuellen Daten. Dabei sind methoden- und wissensorientierte Ansätze zu unterscheiden: Erstere untersuchen, welche Methoden der statistischen Datenanalyse welche Textanalyseaufgaben zu lösen erlauben, und zwar in Ergänzung, Erweiterung oder Ersetzung von herkömmlichen Methoden des Information Retrieval, der Informationsextraktion und der Textzusammenfassung. Letztere zielen darüber hinaus auf die Exploration von Wissen über jene Sachverhalte, welche die analysierten Texte annahmegemäß beschreiben.
Sprachlernsysteme
 Veit Reuer Sprachlern- oder auch Sprachlehrsysteme nutzen die Möglichkeiten der Computerlinguistik, um den Fremdsprachenerwerb eines Lerners zu unterstützen. Zumeist wird dazu entweder die Sprache des Lerners analysiert und ein Feedback über Korrektheit gegeben, oder es wird sprachliches Material so aufbereitet, dass es den Lerner beim Verständnis einer Fremdsprache unterstützt.
Korrekturprogramme
 Gerd Fliedner (Institut für Computerlinguistik und Phonetik, Universität des Saarlandes) Korrekturprogramme suchen und korrigieren Fehler in Textdokumenten. Sie teilen sich auf in kontextunabhängige und kontextabhängige Rechtschreibkorrekturprogramme, die für falsch geschriebene Zeichenketten anhand von Lexika die ähnlichsten Wörter als Korrektur vorschlagen, und Grammatikkorrekturprogramme.
Kommunikationshilfen
 Michael Kühn, Stefan Langer (Centrum für Informations- und Sprachverarbeitung, Universität München) Kommunikationshilfen sind ein interdisziplinäres Forschungsthema. Diese Bibliographie enthält neben Angaben zu den wichtigsten allgemeinen Quellen vor allem Literaturhinweise zu Kommunikationshilfen, die aus Sicht der Sprachtechnologie interessant sind.
| |