Die Anwendbarkeit von Active Learning auf Sprachlerner-Korpora

Ein Ansatz zum effizienten automatischen Labeln von Lernerantworten für Deutsch als Fremdsprache

Die Bereitstellung einer ausreichenden Menge an Trainingsdaten für einen maschinellen Klassifikator ist ein großes Problem im Bereich der Computerlinguistik. Der auf Active Learning (AL) basierende Ansatz umgeht dieses Problem, indem versucht wird, ein Trainingsset während des Lernens dynamisch zu erzeugen. Auf Basis eines anfangs vorhandenen, kleinstmöglichen Trainingssets (Seedset), wird aus einem großen Pool von ungelabelten Datenpunkten der informativste herausgesucht. Dieser wird dann von einem Menschen gelabelt und zum Trainingsset hinzugefügt. Dieser Schritt wird wiederholt, bis die gewünschte Größe eines Trainingssets erreicht ist. Diese wird in der Regel unter der Größe eines "herkömmliche" Trainingssets liegen.

Eine mögliche Anwendung hierfür ist das automatische Bewerten von Schülerantworten auf Kurzfragen (sog. Shortanswers). Die vorgestellte Arbeit untersucht den Nutzen dieser Technik am Corpus of Reading Exercises for German (CREG). Dieses enthält die Antworten von Sprachlernern des Deutschen auf Shortanswer-Fragen und dient als Input für einen AL-Algorithmus.

In der Arbeit wurde ein AL-System implementiert, das verschiedene Ansätze untersucht, um ein bestmögliches Ergebnis zu erhalten. Betrachtet werden unter anderem die Verwendung verschiedener Klassifikatoren, verschiedener Maße zur Bewertung der Informativität von Datenpunkten oder verschiedene Arten der Auswahl eines initialen Trainingssets. Ziel ist es, unbekannte Lernerantworten mit möglichst hoher Sicherheit und möglichst kleinem Trainingsset als "richtig" oder "falsch" zu klassifizieren.