negra corpus

deutschdeutsch englishenglish

Version 2 des Korpus ist nun verfügbar!

Version 2 of the corpus is now available!

Das NEGRA Korpus Version 2 besteht aus 355.096 Tokens (20.602 Sätzen) deutschen Zeitungstextes aus der Frankfurter Rundschau. Die Texte sind der CD "Multilingual Corpus 1" der European Corpus Initiative entnommen. Es basiert auf ca. 60.000 Tokens, die am Institut für maschinelle Sprachverarbeitung, Stuttgart, mit Parts-of-Speech annotiert wurden. Dieses Korpus wurde erweitert, ebenfalls mit Parts-of-Speech versehen und vollständig mit syntaktischen Strukturen annotiert. Der Aufbau des Korpus wurde in den Projekten NEGRA (DFG Sonderforschungsbereich 378, Projekt C3) und LINC (Universität des Saarlandes) in Saarbrücken durchgeführt. The NEGRA corpus version 2 consists of 355,096 tokens (20,602 sentences) of German newspaper text, taken from the Frankfurter Rundschau as contained in the CD "Multilingual Corpus 1" of the European Corpus Initiative. It is based on approx. 60,000 tokens that were tagged for part-of speech at the Institut für maschinelle Sprachverarbeitung, Stuttgart. This corpus was extended, tagged with part-of-speech and completely annotated with syntactic structures. The corpus was created in the projects NEGRA (DFG Sonderforschungsbereich 378, Projekt C3) and LINC (Universität des Saarlandes) in Saarbrücken.

Das Korpus liegt intern als SQL Datenbank vor. Extern stellen wir es im zeilenbasierten Export-Format dar.

The corpus is project internally stored in an SQL database. Externally, we represent the annotations in a line-oriented export format

Das Korpus enthält kontextfreie Strukturen mit möglicherweise kreuzenden Kanten. Bei Bedarf können kreuzende Kanten automatisch in Traces umgewandelt werden, so daß das Korpus dann im gleichen Format wie die Penn-Treebank vorliegt. The corpus contains context-free structures with crossing branches. If required, crossing branches can be converted to traces, and the corpus can be represented in the same format as the Penn Treebank.
Ein kurzer Ausschnitt des Korpus:
-- im Export-Format
-- im Penn-Treebank-Format

A short extract from the corpus:
-- export format
-- Penn Treebank format

Die folgenden verschiedenen Typen von Informationen sind im Korpus kodiert:

The following different types of information are coded in the corpus:

Unser Beitrag zur ANLP-97 beschreibt die grundlegenden Ideen beim Aufbau des Korpus. Our paper at ANLP-97 describes the basic ideas of the corpus.
drei annotierte Beispielsätze:
Satz 1 Satz 2 Satz 3
gif-Datei
ASCII-Datei
Postscript-Datei
three annotated example sentences:
sentence 1 sentence 2 sentence 3
gif-file
ASCII-file
Postscript-file
Wir stellen das Korpus für wissenschaftliche Zwecke frei zur Verfügung. Die genauen Bedingungen sind in der nachfolgenden Lizenz aufgeführt. Bei Interesse schicken Sie diese bitte ausgefüllt an die unten genannte Adresse. Auch wenn Sie bereits eine Lizenz für die Version 1 des NEGRA-Korpus besitzen, müssen Sie eine neue Lizenz für die Version 2 des Korpus einschicken. We provide the corpus for scientific use for free. The exact conditions are listed in the following license. If you are interested please fill it out and send it to the address mentioned below. You have to sign a new license for version 2 of the corpus, even if you already have a valid license for version 1 of the corpus.
Lizenz zur Benutzung des Korpus (HTML) license for using the corpus (HTML)
Lizenz zur Benutzung des Korpus (PostScript) license for using the corpus (PostScript)
Lizenz zur Benutzung des Korpus (PDF) license for using the corpus (PDF)
Für weitere Einzelheiten zum kommerziellen Lizenz, bitte siehe diese Seite. For more information on commercial licenses, please refer to this page.
Das Korpus wurde semi-automatisch erstellt. Jeder Satz wurde unabhängig von zwei Personen annotiert und anschließend verglichen. Jede Annotation wurde interaktiv erstellt, um den manuellen Annotationsaufwand zu minimieren. Im Projekt finden die folgenden Programme Verwendung: The corpus was created semi-automatically. Each sentence was annotated independently by two persons and compared afterwards. Each annotation was created interactively to minimize the manual annotation effort. In the project the following programs were used:
  • Das Annotationstool annotate bietet eine graphische Oberfläche zur effizienten strukturellen Annotation. Es arbeitet über eine definierte Schnittstelle mit im Hintergrund laufenden Parsern zusammen, die die manuelle Annotation unterstützen.
  • Der statistische Part-of-Speech Tagger "TnT" sorgt zusätzlich zur Zuweisung der Parts-of-Speech auch für die Zuweisung der grammatischen Funktionen und der Phrasenkategorien bei der interaktiven Annotation.
  • Ein statistischer Parser basierend auf Kaskadierten Markov-Modellen schlägt interaktiv neue Konstituenten vor.
  • Der NP-Chunker "Chunkie" erkennt sicher einfache und komplexe NPs und PPs.
  • The annotation tool annotateoffers a graphical user interface for an efficient structural annotation. It works together with parsers supporting the manual annotation and running in the background via a defined interface.
  • The statistical Part-of-Speech Tagger "TnT" - additionally to the assignment of the parts-of-speech - takes care of the assignment of the grammatical functions and the phrasal categories in the interactive annotation.
  • A statistical parser based on Cascaded Markov Models interactively suggests new constituents.
  • The  NP-Chunker "Chunkie" recognizes safely simple and complex NPs and PPs.
Kontakt:

Tania Avgustinova
"NEGRA-Korpus Version 2"
Universität des Saarlandes
FR 4.7 Computerlinguistik, Geb. 17
Postfach 151150
D-66041 Saarbrücken
Germany

 

contact:

Tania Avgustinova
"NEGRA-Korpus Version 2"
Universität des Saarlandes
FR 4.7 Computerlinguistik, Geb. 17
Postfach 151150
D-66041 Saarbrücken
Germany

Am Aufbau des Korpus in den Projekten NEGRA und LINC waren die folgenden Personen beteiligt: The following persons were involved in creating the structurally annotated corpus of projects NEGRA and LINC:
Hans Uszkoreit, Thorsten Brants, Sabine Brants, Christine Foeldesi, Roland Hendriks, Olaf Holz, Meike van Hoorn, Kerstin Klöckner, Brigitte Krenn, Oliver Plaehn, Marcus Pussel, Anne Schwartz, Bernd-Paul Simon, Wojciech Skut, Holger Stenzhorn. Hans Uszkoreit, Thorsten Brants, Sabine Brants, Christine Foeldesi, Roland Hendriks, Olaf Holz, Meike van Hoorn, Kerstin Klöckner, Brigitte Krenn, Oliver Plaehn, Marcus Pussel, Anne Schwartz, Bernd-Paul Simon, Wojciech Skut, Holger Stenzhorn.

Last updated: Thu May 11 11:57:12 MET DST 2006, Geert-Jan M. Kruijff, Oliver Plaehn, Holger Stenzhorn, Thorsten Brants