Ressourcen

Die Software zu den distributionellen Modellen aus unserem EmpiriST Shared Task kann hier heruntergeladen werden: schreibgebrauch.tgz

Folgende Ressourcen können wir zusätzlich zu nichtkommerziellen Forschungszwecken zur Verfügung stellen:

Unseren POS-annotierten Gold-Standard für CMC-Texte: Jeweils ca 12 000 Tokens für die drei Teilcorpora Forum, Chat und Twitter.
Die darauf und auf TIGER trainierten Tagging-Modelle für TnT, HunPOS, Stanford Tagger und TreeTagger.
Den annotierten Gold-Standard zur wörtlichen und idiomatischen Verwendung von deutschen Infinitiv-Verb-Verbindungen, bestehend aus ca 5400 annotierten Belegen aus dem Wahrig-Corpus.

Bitte kontaktieren Sie uns unter schreibgebrauch -at- coli.uni-saarland.de.