преподаватели

ст.н.с. II ст. д-р
Елена Паскалева
ИПОИ, БАН

PD Dr. phil. habil.
Таня Августинова
DFKI & Saarland University


обща информация

Интензивен курс с обем от 30 лекционни часа
обявата в PDF


график на занятията

01.10.2007 първа сбирка (13:00)  Деканата ФСФ

02.10.2007 (17:00-19:30)   зала 124а на ФСФ

03.10.2007 (17:00-19:30)   зала 124а на ФСФ 

04.10.2007 (17:00-19:30)   зала 124а на ФСФ 

05.10.2007 (17:00-19:30)   зала 124а на ФСФ 

08.10.2007 (17:00-19:30)   зала 124а на ФСФ 

09.10.2007 (17:00-19:30)   зала 124а на ФСФ 

10.10.2007 (17:00-19:30)   зала 124а на ФСФ 

11.10.2007 (17:00-19:30)   зала 124а на ФСФ 

12.10.2007 (17:00-19:30)   зала 124а на ФСФ 


регистрация

заявка за участие по  ел.поща до 02.10.2007


конспект на лекциите

01.&02.10.2007 .pdf
03.&04.10.2007 .pdf
05.&08.10.2007 .pdf


слушатели

Балабанова, Елисавета

Белчева, Мария

Бояджиев, Андрей

Кючукова, Росица

Липовска, Ани

Милева, Мариела

Накова, Екатерина

Петрова, Красимира

Рангелова, Калина

Стоевски, Андрей

Стоилкова, Диана

Христова, Цветелина



анотация на курса

Курсът представлява едно въвеждане в проблематиката на лингвистичните технологии (Language Тechnologies, LT)  – известни още като автоматична обработка на естествения език (Natural Llanguage Processing, NLP), компютърна лингвистика (Computational Linguistics, CL) –  чрез изследване на конкретни езикови явления и процеси, моделирани компютърно за славянските езици.  Основните методи и приложения – формални и компютърни, се разясняват чрез общоприети и общоизползвани технологии в славянските езици, като основна и отправна точка за сравнение и оценка си остава българският език. Предлаганото постепенно въвеждане  в теорията на лингвистичните технологии и компютърните модели  се осъществява чрез обработка на конкретни равнища от езиковото описание на славянските езици (текстово, морфологично, синтактично) и цели не само да запознае студентите с този модерен клон от езикознанието, но и да ги мотивира да усвоят основни съпоставителни параметри в описанието на тези езици. Така се постига опознаване на механизма на контрастивността чрез компютърното му моделиране. Студентите се запознават и с налични компютърни ресурси  – граматически речници, текстови корпуси, статистически  и лингвистични процедури, които ще им бъдат предоставени за лабораторна работа. Предлаганият курс се изгражда на базата на (i)  общи положения на компютърната лингвистика; (ii) съдържание и обхват на курсовете по компютърна лингвистика в Саарландския университет; (iii) конкретни лингвистични технологии, разработени в ИПОИ БАН

целева аудитория

Курсът се предлага като свободно избираема дисциплина (СИД) за студентите от бакалавърските и магистърските програми във Факултета по славянски филологии (ФСФ) на Софийския университет (СУ) Св. Климент Охридски.

тематични блокове (по три лекционни часа на тема)

» Основи на компютърната лингвистика
» Граматически речници
» Анотационни маркери
» Формални подходи към славянските езици
» Приложения, изискващи (пълен или  частичен) синтактичен анализ
» Използване на синтактично анотирани корпуси в славистиката
» Модулно разработване на компютърни граматики за славянските езици
» Обработка на паралелни текстове
» Измерване на лексикална близост между славянските езици
» Машинен превод

електронно достъпни материали за предварителна подготовка

Въведение (на български):
http://www.larflast.bas.bg/balric/index/

        (1) морфологични ресурси
        (2) лексикални ресурси
        (3) корпуси

Паскалева: Технологии за лексикални изследвания на славянските езици (с различна степен на близост) чрез паралелни корпуси

ETAP  Russian-English MT

НКРЯ: Национальный корпус русского языка

RussNet
: a wordnet-type database for Russian

ДИАЛОГ: Компьютерная лингвистика и интеллектуальные технологии

    1. Корпусная лингвистика
    2. Машинный перевод
    3. Системы поиска и классификации
    4. Компьютерная лексикография
    5. Лингвистическая семантика
    6. Формальные модели анализа и распознавания языковых структур
    7. Психолингвистика

Пример за многоезичен ресурс:
 http://langtech.jrc.it/JRC-Acquis.html

Съвременен машинен превод:
http://www.hutchinsweb.me.uk/main.htm  (обща информация)
http://www.mt-archive.info/ (архив)
http://www.euromatrix.net/partners/saarland-university/

Компютърни граматики и синтактични ресурси:
http://wiki.delph-in.net    |    http://clark.space.bas.bg

Симов / Осенова: Корпус от синтактични описания на българския език - BulTreeBank

Paskaleva: Compilation and Validation of Morphological Resources  | Balkan South-East Corpora Aligned to English |  Paskaleva / Slavcheva: A Comparative Representation of Two Bulgarian Morphosyntactic Tagsets and the EAGLES Encoding Standard

Nakov: Design and Evaluation of Inflectional Stemmer for Bulgarian  | Nakov / Paskaleva:  Robust Ending Guessing Rules with Application to Slavonic Languages | Nakov / Nakov / Paskaleva: Cognate or False friend? Ask the Web! | Nakov / Pacovski / Paskaleva: Extracting Translation Lexicons from Bilingual Corpora: Application to South-Slavonic Languages

Petrova / Aleksova / Osenova: Electronic Resources of Slavic Languages – an Overview

Avgustinova: Word Order and Clitics in Bulgarian | Clustering Clitics in Bulgarian nominal constituents | Prosodic constraints in morphosyntactic domainsGaining the perspective of a language family oriented grammar design: Special predicative clitics in Slavic | Arguments, grammatical relations and diathetic paradigm | Russian infinitival existential constructions from an HPSG perspective

Avgustinova / Uszkoreit: An Ontology of Systematic Relations for a Shared Grammar of Slavic | Towards a Typology of Agreement Phenomena | Reconsidering relations in constructions with non-verbal predication | Shared and Non-shared Grammar in Modelling Slavic Morphosyntax