Computational Linguistics & Phonetics Computational Linguistics & Phonetics Fachrichtung 4.7 Universität des Saarlandes

Ressourcen

Die Software zu den distributionellen Modellen aus unserem EmpiriST Shared Task kann hier heruntergeladen werden: schreibgebrauch.tgz

Folgende Ressourcen können wir zusätzlich zu nichtkommerziellen Forschungszwecken zur Verfügung stellen:
  • Unseren POS-annotierten Gold-Standard für CMC-Texte: Jeweils ca 12 000 Tokens für die drei Teilcorpora Forum, Chat und Twitter.
  • Die darauf und auf TIGER trainierten Tagging-Modelle für TnT, HunPOS, Stanford Tagger und TreeTagger.
  • Den annotierten Gold-Standard zur wörtlichen und idiomatischen Verwendung von deutschen Infinitiv-Verb-Verbindungen, bestehend aus ca 5400 annotierten Belegen aus dem Wahrig-Corpus.
Bitte kontaktieren Sie uns unter schreibgebrauch -at- coli.uni-saarland.de.