Praktikumsberichte · 2002-09-30 · Christine Földesi

Christine Földesi

Kontakt
Dauer 22.07.2002 - 30.08.2002
Firma Irion Technologies BV.
Adresse Bagijnhof 80
P.O.Box 2849
2601 CV Delft
Niederlande

Beschreibung des Praktikums

Mein 6-wöchiges Praktikum absolvierte ich vom 22. Juli bis zum 30. August 2002 bei IRION in Delft (Holland). Diese Firma stellt hauptsächlich Software im Bereich IR her.

Bei IRION bestand meine Aufgabe in der selbständigen Lösung der Eigannamenserkennung im Deutschen.

In der ersten Woche lernte ich die verschiedenen Produkte von IRION kennen, um eine Vorstellung vom Nutzen meiner Arbeit zu bekommem. Im nächsten Schritt studierte ich einige bekannte Verfahren auf diesem Gebiet und in Zusammenarbeit mit meinen Kollegen entschieden wir uns für ein maschinelles Lernverfahren, das wir mit TBL realisierten. Danach verbrachte ich beträchtliche Zeit mit dem Kennenlernen der Funktionen von TBL. Der nächste Schritt war die Bestimmung des Konzepts "Eigenname". Hier waren einmal die linguistische Seite, dann die Fähigkeiten des Tools TBL und auch die spätere Verwendungsmöglichkeiten von IRION von Bedeutung. Darauf folgte die manuelle Annotation von deutschen Zeitungstexten. Dabei experimentierten wir mit HTML-Texten und puren Texten aus verschiedenen Themenbereichen. Insgesamt schafften wir einen 50 Tausend Wort großen Trainingskorpus. Nun kam die Testphase, in der mehrere Variablen variiert wurden, dabei spielte natürlich die Größe des Trainingskorpus die wichtigste Rolle. Enttäuschend fand ich aber, dass die vom Tool gegebenen Möglichkeiten kaum einen Einfluss auf das Ergebnis hatten.

Insgesamt zeigte sich, dass einige Wortklassen (Präpositionen, Artikel) selbst mit diesem kleinen Korpus nahe zu 100% zu lernen waren, Verben und Adverbien an die 70%, und Eigennamen bis zu 60% erkannt wurden.

Ich glaube, dass ich durch mein Studium gut auf das Praktikum gut vorbereitet war und so die gestellte Aufgabe zufriedenstellend lösen konnte. Der größte Nutzen für mich bestand darin, dass ich einmal eine längere Zeit selbständig an einem Problem arbeiten konnte und bei Fragen trotzdem immer kompetente Hilfe von meinen Kollegen bekommen habe. Als sehr positiv betrachte ich, dass ich durch die enge Zusammenarbeit einen guten Einblick in die Arbeitsweise bei einer Firma bekommen konnte. Insgesamt hat mir das Praktikum sehr viel Spaß gemacht und ich kann IRION durchaus jedem als Praktikumsplatz weiterempfehlen.

Internship Christine Foeldesi

Christine Foeldesi joined Irion in the summer of 2002 for a 6-week internship. She first had to get familiar with the company practices and systems. She studied the different Irion projects and the way we try to develop language technology for the software market. She then focussed on her task: a Named Entity Recognition system for German. Currently, Named Entity Recognition at Irion is carried out for 5 languages but not for German. This is mainly due to the use of Upper case for German nouns.

Christine investigated the possibility to build such a Named Entity Recognition using a transformation based learning system developed at the Johns Hopkins University http://nlp.cs.jhu.edu/~rflorian/fntbl/tbl-toolkit. TBL can be downloaded from their web site but needs to be configured and set up to work with your own corpora and lexicons.

Christine installed the system and compiled a corpus of German articles on various topics. Next, she used the Irion tool to manual tag the corpus, creating a training set of about 50,000 word tokens in a short period. She experimented with the TBL system to measure the effect of training, using a seed-lexicon and using just hand crafted conditional rules. She finally developed scripts to evaluate the system.

She evaluated a test set using different chunks of the training corpus, where she varied the settings for the threshold and ratio for dividing up the training corpus. She compared the results for the proper noun assignments with the tagging of other parts of speech.

Here conclusions are that the TBL system gives good results for the other parts-of-speech (80 up to 90%), but lower results of proper nouns (60 up to 80%). There seems to be a correlation between the size of the corpus and the quality. It therefore seems reasonable to expect that a much bigger training corpus will improve the results also for proper nouns.

Finally, Christine is a very nice, dedicated and kind person that smoothly fitted in the Irion team. We all enjoyed working with her.

Dr. Piek Vossen
e-mail: piek.vossen@irion.nl
tel: +31 (0) 15 215 3456 (general) / -3458 (direct)
fax: -3450