<?php 

      $pagetype = "front";
      $pagetitle = "Statistische Methoden";
	  $description = "Homepage Mathe III";
	  $author = "Garance PARIS";
	  $keywords = "homepage statistische Methoden Mathe III Mathematische Grundlagen Computerlinguistik";

      include "../mycommon_start.phtml" ?>

</table>
    <table border="0" cellspacing="0" cellpadding="20" width="720"> 
      <tr>
	<td>

<h1>Mathematische Grundlagen der Computerlinguistik III: Statistische
Methoden</h1>

Vorlesung, erster Studienabschnitt

<p>

<h2>Leitung</h2>

<a href="http://www.coli.uni-sb.de/~crocker/">Matt Crocker</a>,
<a href="mailto:enrico.lieblang@htw-saarland.de">Enrico Lieblang</a>

<p>

<h2>Zeit und Ort</h2>

Mo 16-18 (Vorlesung), Di 16-18 (Vorlesung), Do 14-16 (&Uuml;bung), Seminarraum<br>

<p>

<h2>Skripte und Folien</h2>

<table border>

<tr>
<td>28.04.2003</td>
<td>Matthew Crocker</td>
<td>
<a href="Lectures/lecture1-mc.pdf">Lecture 1: Statistics and Language</a>
</td>
</tr>

<tr>
<td>02.06.2003</td>
<td>Matthew Crocker</td>
<td>
<a href="Lectures/lecture2-mc.pdf">Lecture 2: Corpora</a>
</td>
</tr>

<tr>
<td>03.06.2003</td>
<td>Matthew Crocker</td>
<td>
<a href="Lectures/lecture3-mc.pdf">Lecture 3: Information Theory</a>
</td>
</tr>

<tr>
<td></td>
<td>Matthew Crocker</td>
<td>
<a href="Lectures/lecture4-mc.pdf">Lecture 4: Information Theory, Part II</a>
</td>
</tr>

<tr>
<td></td>
<td>Matthew Crocker</td>
<td>
<a href="Lectures/lecture5-mc.pdf">Lecture 5: Word Clustering with Information Theory</a>
</td>
</tr>

<tr>
<td></td>
<td>Matthew Crocker</td>
<td>
<a href="Lectures/lecture6-mc.pdf">Lecture 6: Selectional Restrictions with Information Theory</a>
</td>
</tr>

<tr>
<td></td>
<td>Matthew Crocker</td>
<td>
<a href="Lectures/lecture7-mc-pcfg1-2up.ps.gz">Lecture 7: Probabilistic Context-free Grammars: Overview</a>
</td>
</tr>

<tr>
<td></td>
<td>Matthew Crocker</td>
<td>
<a href="Lectures/lecture8-mc-pcfg2-2up.ps.gz">Lecture 8: Probabilistic Context-free Grammars: Inside and Outside Probabilities, and Viterbi parsing</a>
</td>
</tr>

</table>

<p>

<h2>&Uuml;bungsbl&auml;tter</h2>

<table border>

<tr>
<td>06.05.2003</td>
<td>Enrico Lieblang</td>
<td>
<a href="Tutorials/ueb1-enrico.ps.gz">&Uuml;bung 1</a>
</td>
</tr>

<tr>
<td>13.05.2003</td>
<td>Enrico Lieblang</td>
<td>
<a href="Tutorials/ueb2-enrico.ps.gz">&Uuml;bung 2</a>
</td>
</tr>

<tr>
<td></td>
<td>Enrico Lieblang</td>
<td>
<a href="Tutorials/ueb4-enrico-corr.ps.gz">&Uuml;bung 4---Musterl&ouml;sung</a>
</td>
</tr>

<tr>
<td>05.06.2003</td>
<td>Garance PARIS</td>
<td>
<a href="Tutorials/tut1-unixtools-gp.pdf">Unix Tools</a>
</td>
</tr>
<tr>
<td colspan="3">
The corpora for the tutorial are in:<br>
<a href="http://www/~gparis/MatheIIISS03/Corpora/example">~gparis/shadow/public/MatheIII/Corpora/example</a>
<a href="http://www/~gparis/MatheIIISS03/Corpora/german">~gparis/shadow/public/MatheIII/Corpora/german</a>
<a href="http://www/~gparis/MatheIIISS03/Corpora/english">~gparis/shadow/public/MatheIII/Corpora/english</a>
<a href="http://www/~gparis/MatheIIISS03/Corpora/brown_pos">~gparis/shadow/public/MatheIII/Corpora/brown_pos</a>
</td>
</tr>

<tr>
<td>17.06.2003</td>
<td>Garance PARIS</td>
<td>
<a href="Tutorials/tut2-entropy-gp.pdf">Information Theory</a>
</td>
</tr>

<tr>
<td>03.07.2003</td>
<td>Garance PARIS</td>
<td>
<a href="Tutorials/tut3-gsearch-gp.pdf">GSEARCH</a>
</td>
</tr>

</table>

<p>

<h2>Inhalt</h2>

Statistische Methoden erhalten in der Computerlinguistik eine immer gr&ouml;ssere Bedeutung, insbesondere im Bereich der Sprachtechnologie. Ein grosser Teil der Anwendungen w&auml;re heute ohne den Zugriff auf statistische Methoden nicht mehr m&ouml;glich.

<p>

Statistische Verfahren nutzen H&auml;ufigkeitsverteilungen in Text- oder Sprachkorpora aus, um Aussagen &uuml;ber neue, vorher ungesehene Daten zu machen und somit deren Analyse zu erm&ouml;glichen. Insbesondere erlauben es statistische Verfahren, linguistischen Strukturen (z.B. Parseb&auml;umen) Wahrscheinlichkeiten zuzuordnen, die dann f&uuml;r die Verarbeitung dieser Strukturen eingesetzte werden k&ouml;nnen (z.B. zur Aufl&ouml;sung von Mehrdeutigkeiten).

<p>

Im einzelnen sollen folgende Themen behandelt werden:

<ul>
<li>Mathematische Grundlagen
<ul>
<li>Verteilungen, Zufallsvariable
<li>Sch&auml;tztheorie, Testtheorie
<li>Stochastische Prozesse
</ul>
<p>
<li>Korpuslinguistische Untersuchungen
<ul>
<li>Frequenzen, Proportionen
<li>Kollokationen
<li>Informationstheorie
</ul>
<p>
<li>Verarbeitungsverfahren
<ul>
<li>Part-of-Speech Tagging
<li>Stochastisches Parsing
</ul>
</ul>

<p>

<h2>Vorraussetzungen/Bemerkungen</h2>

keine.

<p>

<h2>Stellung im Studienplan</h2>

Der Schein kann alternativ zu einem Schein in "Informatische Grundlagen" (6 SWS; gem&auml;ss §11(2)2 der neuen SPO) verwendet werden.

<p>

<h2>Pr&uuml;fungsleistungen</h2>

Es findet eine Klausur &uuml;ber den gesamten Stoff am Semesterende statt (120 min). Die Teilnehmer m&uuml;ssen 50% der Punkte aus &Uuml;bungsaufgaben als Voraussetzung zur Klausurteilnahme erbringen.

<p>

Pr&uuml;fungsanmeldung bitte sp&auml;testens 14 Tage vor Semesterende per <a href="http://www.coli.uni-sb.de/~saurer/webanmeldung-hinweise-stud.html">Online-Formular</a>.

<p>

<h2>Literatur</h2>

Bauer, 1968. <i>Wahrscheinlichkeitstheorie und Grundz&uuml;ge der Masstheorie.</i> Berlin.

<p>

Thorsten Brants, 2000. <a href="http://www.coli.uni-sb.de/~thorsten/publications/Brants-ANLP00.ps.gz">TnT - A Statistical Part-of-Speech Tagger</a>. In <i>Proceedings of the Sixth Conference on Applied Natural Language Processing ANLP-2000</i>, Seattle, WA.

<p>

J&uuml;rgen Bortz, 1993. <i>Statistik f&uuml;r Sozialwissenschaftler</i>. Springer, Berlin.

<p>

Christopher Butler, 1985. <i>Statistics in Linguistics</i>. Blackwell, Oxford.

<p>

Eugene Charniak, 1993. <i>Statistical Language Learning</i>. MIT Press, Cambridge, MA.

<p>

Kenneth Ward Church, 1994. <i><a href="http://www.research.att.com/~kwc/tutorials/unix_for_poets.ps">Unix for Poets</a></i>. (html and pdf versions also available at various places on the web).

<p>

Brigitte Krenn and Christer Samuelsson, 1996. <i><a href="http://www.coli.uni-sb.de/~thorsten/c-alg/stat_cl.html">The Linguist's Guide to Statistics</a></i>. A compendium for a course in Statistical Approaches in Computational Linguistics.

<p>

Erwin Kreyszig, 1998. <i>Statistische Methoden und ihre Anwendungen.</i> van den Hoeck &amp; Ruprecht, G&ouml;ttingen.

<p>

Ruth Kusterer. <a href="http://www.ruthless.zathras.de/facts/coli/linuxcoli.php">Linux-Tools für Computerlinguisten</a> (Deutsch).

<p>

David M. Lane, 2000. <a href="http://davidmlane.com/hyperstat/index.html">HyperStat Online</a>.

<p>

Christopher Manning and Hinrich Sch&uuml;tze, 1999. <i>Foundations of Statistical Natural Language Processing.</i> MIT Press, Cambridge, MA.

<p>

Tony McEnery, 1996. <i>Corpus Linguistics</i>. Edinburgh University Press.

<p>

P. Oakes, 1998. <i>Statistics for corpus linguistics</i>. Edinburgh University Press.

<p>

Außerdem sind <a href="http://www.coli.uni-sb.de/~kmueller/teaching/statistics/index.html">Skript, Folien und Übungsblätter von letztem Jahr</a> auch auf der Homepage von Karin Müller zu erreichen.

</td>

<?php 
      $whoami = basename($PHP_SELF);
      $modtime = strftime("%Y-%m-%d", filemtime($whoami));
      $pwuid_record = posix_getpwuid(fileowner($whoami));
      $modname = $pwuid_record["name"];
      $contactmail = 'garance AT advalvas.be';

      include "../mycommon_end.phtml" ?>








