Ressourcen
Die Software zu den distributionellen Modellen aus unserem EmpiriST Shared Task kann hier heruntergeladen werden: schreibgebrauch.tgzFolgende Ressourcen können wir zusätzlich zu nichtkommerziellen Forschungszwecken zur Verfügung stellen:
- Unseren POS-annotierten Gold-Standard für CMC-Texte: Jeweils ca 12 000 Tokens für die drei Teilcorpora Forum, Chat und Twitter.
- Die darauf und auf TIGER trainierten Tagging-Modelle für TnT, HunPOS, Stanford Tagger und TreeTagger.
- Den annotierten Gold-Standard zur wörtlichen und idiomatischen Verwendung von deutschen Infinitiv-Verb-Verbindungen, bestehend aus ca 5400 annotierten Belegen aus dem Wahrig-Corpus.