Praktikumsberichte · 1995-09-01 · Yu-Fang Wang

Yu-Fang Wang

Kontakt
Dauer 05.1995 - 07.1995
Firma Academia Sinica
Adresse No. 128, Section 2
Academia Rd, Nangang District
Taipei City
Taiwan 115

Die CKIP-Forschungsgruppe an der Academia Sinica

Ich habe mein Berufspraktikum bei der Chinese Knowledge Information Processing Group(CKIP) an der Academia Sinica in Taipei, einer der zentralen Forschungsstätten Taiwans, abgeleistet.

Das Langzeitprojekt CKIP ist 1986 angelaufen, zur selben Zeit wurde die gleichnamige Forschungsgruppe gegründet. Sie steht jetzt unter der Leitung von Professor Chu-Ren Huang und Professor Keh-Jian Chen.

CKIP bietet eine Forschungsumgebung für chinesische Sprachverarbeitung. Die computerlinguistischen Forschungsgebiete sind Korpuslinguistik und Parsing. Das Projekt hat schwerpunktmäßig folgende Zielsetzungen:

  • die Erstellung eines elektronischen Lexikons
  • die Erstellung je eines umfassenden Korpus für modernes und klassisches Chinesisch
  • die Entwicklung eines Parsers für Chinesisch

Bei der Beschreibung des Praktikumsablaufs werde ich noch darauf zu sprechen kommen.

Daneben wird, auch in Zusammenarbeit mit anderen Forschungsgruppen, intensiv (und erfolgreich) an anderen Projekten gearbeitet, z.B. an dem Information Retrieval System C-Smart oder einem Speech-to-Text-System. Ich hatte Gelegenheit, eine Vorführung zu sehen und fand es sehr beeindruckend.

Der oben erwähnte CKIP-Kern (Lexikon, Korpus und Parser) findet in diesen Projekten teilweise Anwendung. Z.B. werden für effizientes Information Retrieval partielle Parsestrukturen mit statistischen Methoden kombiniert. Da ich ansonsten aber nichts damit zu tun hatte, beschränke ich mich hier darauf, auf Chien zu verweisen.

Die Arbeitsatmosphäre am Institut ist ausgesprochen familiär und locker !

Die CKIP-Leiter begrüßen Auslandsaufenthalte der Studenten, die im Projekt mitarbeiten und sind allgemein sehr an internationalem Austausch interessiert, was sich auch in der Anzahl der Veröffentlichungen in den COLING oder ICCPOL Proceedings zeigt. Die beigefügte Literaturliste soll einen Eindruck davon vermitteln.

Der Studiengang Computerlinguistik existiert in Taiwan offiziell noch nicht , daher wird die Forschungstätigkeit von CKIP der Informationswissenschaft (department of information science) zugerechnet.

Praktikumsablauf

In der ersten Woche wurde ich der Orientierung halber mit den einzelnen Teilgebieten des Projekts vertraut gemacht, natürlich auch im Hinblick auf meine spätere Aufgabe. Etwa eine Woche später legten Professor Huang und ich sie fest: Ich sollte für den balancierten, neuen chinesischen Korpus eine Benutzerschnittstelle implementieren.

Zwar wäre meinen Interessen eine "linguistischere" Aufgabe mehr entgegengekommen, jedoch wären ihrer Ausführbarkeit aufgrund meiner begrenzten Lesefähigkeit der Schriftzeichen schnell natürliche Schranken gesetzt worden.

Die Projektkomponenten

Eine Vorbemerkung: Durchblick über das ganze Projekt und die Zusammenhänge zu bekommen, war nicht so einfach. Es kam vor, dass meine Kollegen auch nicht so genau Bescheid wussten, also musste ich vieles in den Papers (s. Literaturverzeichnis) nachlesen. Das folgende ist also hoffentlich eine richtige Darstellung, aber eine Garantie dafür gebe ich lieber nicht.

Das Projekt gliedert sich auf in das elektronische Lexikon, den Parser und den Korpus. Diese Teile sind voneinander abhängig: Der getaggte Korpus dient als Datenbasis für das elektronische Lexikon. Der Parser greift bei der Analyse auf die lexikalischen Einträge in diesem Lexikon zurück. Sätze aus dem Korpus dienen dazu, die Güte des Parsers zu testen.

  figure22

Abbildung 1: Der CKIP-Kern

Die Korpora

Es gibt je einen Korpus für klassisches und modernes Chinesisch. Zu Vergleichszwecken ist der klassische Korpus im Gegensatz zum modernen Korpus nicht balanciert. Ein weiterer wichtiger Unterschied ist, dass der moderne Korpus offen ist, d.h., er wird regelmäßig mit neuen Texten "gefüttert", wohingegen die Arbeit am klassischen Korpus in dieser Hinsicht abgeschlossen ist. Alle ca. 3 Millionen Zeichen geschriebener Prosa, die überhaupt überliefert sind, wurden bereits übernommen.Zum klassischen Korpus werde ich sonst nichts weiter sagen.

Mindestens so wichtig wie die Korpora sind die für die Linguisten entwickelten Werkzeuge. [2] und [5] informieren über alle in diesem Abschnitt angesprochenen Punkte.

Das elektronische Lexikon

Das Lexikon soll als Wissensbasis für chinesische Sprachverarbeitung dienen.

So greift z.B. der Parser beim Analyseprozess auf diese Einträge als Terminale des Parsebaums zu. Von der Idee her soll das Lexikonformat so allgemein sein, dass es auch an andere Module, z.B. für Generierung, angeschlossen werden können sollte. Da es diese, zur Zeit jedenfalls, nicht gibt, sind die Lexikoneinträge mit dem des Parsers identisch. Für die Zukunft, wenn tatsächlich noch andere Teilprojekte das Lexikon benutzen, ist automatische Kompilierung vom Lexikonformat in das jeweils benötigte geplant.

Bei der Lexikonkonstruktion gibt es unter anderen folgende Schwierigkeiten:

Der Parser

Der Parser wird in seiner neueren Version an getaggten Sätzen aus dem Korpus getestet. Dies ist vor allem aus zwei Gründen vorteilhaft:

1. Wenn ein unbekanntes Zeichen im Satz enthalten ist, kann zumindest aufgrund der annotierten Information der übrigen Zeichen die Kategorie dieses lexikalischen Lochs angenommen werden , sodass sogar für einen solchen Satz ein Parsebaum aufgebaut werden kann (in realiter wahrscheinlich eher mindestens einer).

2. Die Zahl der Parsebäume für einen Satz verringert sich beträchtlich - lexikalische Information wirkt disambiguierend. Vergleichsuntersuchungen in der Effizienz von neuer vs. alter Parserversion, wenn man diese als die Anzahl der nicht aufgetretenen Parsestrukturen in Prozent aufgrund der zusätzlichen Information definiert, gibt es leider nicht.

Praktikumsinhalt

Meine Aufgabe fiel in den Bereich des neuen (= modernen) Korpus, der unter 2.1.1 beschrieben ist. Ich sollte für den noch umzustrukturierenden Korpus eine Benutzerschnittstelle schreiben, die es ermöglicht, eine Textauswahl aus dem Korpus anhand bestimmter Kriterien wie z.B. der Textsorte zu treffen.

Die 5 Hauptkriterien, nach denen Texte im Korpus eingeteilt werden, sind:

1. Genre 2. Stil: z.B. Essay 3. Modus: z.B. geschrieben, gesprochen transkribiert 4. Medium 5. Themengebiet

Im Anhang habe ich die Programmdokumentation beigefügt, sie enthält eine vollständige Aufzählung der Kriterien, und die Werte, die für sie belegt werden können. Das Programm habe ich in C unter UNIX geschrieben.

Ebenfalls beigefügt ist eine detaillierte Beschreibung über die Designkriterien für den Korpus, s. auch [8].

Informationen für Praktikumsbewerber

Taipei

Unter ästhetischen Gesichtspunkten wird Taipei vermutlich schlecht abschneiden. Das liegt dann wohl daran, dass man bei der Planung einzelner Gebäude und Straßenzüge keine Rücksicht darauf genommen zu haben scheint, ob und wie sich die neuen Konstruktionen harmonisch in das bestehende Ganze einfügen ließen. Zu bedenken ist dabei, dass Taiwan erst seit relativ kurzer Zeit zu den "Industrienationen" zählt, und dementsprechend viel aufzuholen hat, ohne aber die Zeit zu haben, das "Alte" mit dem "Neuen" in Einklang zu bringen.

Neuankömmlinge, vor allem Westeuropäer, denke ich, werden vermutlich vor allem über die unglaublich schlechte Luft die Nase rümpfen - sichtbares Zeichen der hohen Bevölkerungsdichte -, und über das gewaltige Verkehrsaufkommen staunen. Mein anfängliches Vorhaben, mit dem Fahrrad durch Taipei zu fahren, war daher gut für einen Witz, und ich habe schnell eingesehen, dass man sich damit in keiner Weise einen Gefallen tut ! Schätzungsweise die Hälfte der Fußgänger und die meisten Mofafahrer tragen Smogmasken.

Um diesen schlechten Zustand zu beheben, hat die Regierung schon vor etwa einem Jahrzehnt den Bau eines U-Bahn-Netzes bei MOTOROLA in Auftrag gegeben, aber bei Inbetriebnahme der ersten ausgebauten Route fing eine der Straßenbahnen Feuer, und die Euphorie für das U-Bahn-Projekt hat sich entsprechend gelegt. 

Ansonsten hat mir Taipei sehr gut gefallen, das hat viele Gr:unde, z.B. die allgegenwärtigen Möglichkeiten sehr gut zu essen, und praktisch rund um die Uhr ausgehen zu können - Nachtmärkte ! -, ohne auf leere Straßen und Plätze zu treffen. Allerdings kann ich mir auch gut vorstellen, dass es mir nach einiger Zeit doch zu laut und zu hektisch werden würde.

Academia Sinica

Die Academia Sinica ist eine zentrale, von der Regierung geförderte Forschungsinstitution. Es werden regelmäßig internationale Kongresse abgehalten. Zur Zeit meines Praktikums fand z.B. folgende Veranstaltung statt: International Workshop on Mind and Language.

Ansonsten bietet der Campus vielfältige Freizeitmöglichkeiten, z.B. ein kleines Hallenbad und einen Tennisplatz. In der Mittagspause werden an bestimmten Wochentagen Kinofilme gezeigt.

Für ausländische Gäste stehen relativ komfortable Zimmer zur Verfügung. Sie haben Bad/WC, Fernseher, Klimaanlage und Kühlschrank, täglicher Reinigungsservice ist inklusive. Eine Übernachtung kostet umgerechnet zwischen 20 und 25 DM (ab 2 oder 3 Wochen gibt es reduzierte Preise).

Voraussetzungen für Praktika bei CKIP

Ich glaube, keine Voraussetzung ist richtig zwingend, weil es darauf ankommt, was man dort macht. Aber es ist wohl auf jeden Fall absolut von Vorteil, chinesische Zeichen lesen zu können. Dann kann man ohne Einschränkungen in jeden Projektteil hineinschnuppern.

Von der Art der Aufgaben her gesehen gibt es eine klare Zweiteilung in linguistische Aufgaben auf der einen Seite und Programmiertätigkeiten auf der anderen Seite. Ersteres könnte Arbeit mit dem Lexikon - also etwa in Abstimmung einer Assistentin Einträge machen - oder mit dem Korpus sein, das heißt z.B. nachprüfen, ob der automatische Tagger einen Satz aus dem Korpus richtig getaggt hat. Oder sich zusammenstellen zu lassen, wie häufig eine bestimmte Zeichenfolge in einem gewählten linken und rechten Kontext auftritt.

In jedem der Teilbereiche gibt es vielfältige Programmieraufgaben.

Die Arbeitsumgebung bei CKIP

Die Systemumgebung besteht aus PCs und HP-Maschinen, die Software läuft unter den Betriebssystemen MS-DOS, Windows und UNIX.

Literatur

1: Chu-Ren Huang, Keh-Jian Chen. Information Based Case Grammar, 1990, COLING 90, Vol.2, pp. 54-59

2: Chu-Ren Huang, Keh-Jian Chen. A Chinese Corpus for Linguistic Research, 1992, COLING 92, pp. 1214-1217

3: Keh-Jian Chen, Shing-Huan Liu. Word Identification for Mandarin Chinese Sentences, 1992, COLING 92

4: Keh-Jian Chen. Linguistic Information and Lexical Data Management in Electronic Dictionary Research, 1994, Proceedings of the 1994 International Conference on Computer Processing of Oriental Languages, 1994, pp. 22-29

5: Chu-Ren Huang, Keh-Jian Chen. Modern and Classical Chinese Corpora at Academia Sinica - Text Databases for NLP and Linguistic Computing ,1994, The 6th CODATA Task Group Meeting on the Survey of Data Sources in Asian-Oceanic Countries

6: Chu-Ren Huang, Keh-Jian Chen. Feature Constraints in Chinese Language Parsing, 1994, Proceedings of the 1994 International Conference on Computer Processing of Oriental Languages, pp. 223-228

7: Chu-Ren Huang, Keh-Jian Chen,Yun-Yan Yang. Character-based Collocation for Mandarin Chinese, 1994, COLING 94, pp. 540-543

8: Chu-Ren Huang, Hui-Li Hsu. Design Criteria for a Balanced Modern Chinese Corpus, 1995 (to appear), Proceedings of the 1995 International Conference on Computer Processing of Oriental Language