анотация на курса
Курсът представлява едно въвеждане в
проблематиката на лингвистичните технологии (Language Тechnologies,
LT) – известни още като автоматична обработка на естествения език
(Natural Llanguage Processing, NLP), компютърна лингвистика
(Computational Linguistics, CL) – чрез изследване на конкретни
езикови явления и процеси, моделирани компютърно за славянските
езици. Основните методи и приложения – формални и компютърни, се
разясняват чрез общоприети и общоизползвани технологии в славянските
езици, като основна и отправна точка за сравнение и оценка си остава
българският език. Предлаганото постепенно въвеждане в теорията на
лингвистичните технологии и компютърните модели се осъществява
чрез обработка на конкретни равнища от езиковото описание на
славянските езици (текстово, морфологично, синтактично) и цели не само
да запознае студентите с този модерен клон от езикознанието, но и да ги
мотивира да усвоят основни съпоставителни параметри в описанието на
тези езици. Така се постига опознаване на механизма на контрастивността
чрез компютърното му моделиране. Студентите се запознават и с налични
компютърни ресурси – граматически речници, текстови корпуси,
статистически и лингвистични процедури, които ще им бъдат
предоставени за лабораторна работа. Предлаганият курс се изгражда на
базата на (i) общи положения на компютърната лингвистика; (ii)
съдържание и обхват на курсовете по компютърна лингвистика в
Саарландския университет; (iii) конкретни лингвистични технологии,
разработени в ИПОИ БАН
целева аудитория
Курсът се предлага като свободно
избираема дисциплина (СИД) за студентите от бакалавърските и
магистърските програми във Факултета по славянски филологии (ФСФ) на
Софийския университет (СУ) Св. Климент Охридски.
тематични блокове (по три лекционни часа
на тема)
» Основи на компютърната лингвистика
» Граматически речници
» Анотационни маркери
» Формални подходи към славянските езици
» Приложения, изискващи (пълен или частичен)
синтактичен
анализ
» Използване на синтактично анотирани корпуси в славистиката
» Модулно
разработване на компютърни граматики за славянските
езици
» Обработка на
паралелни текстове
» Измерване на
лексикална близост между славянските езици
» Машинен превод
електронно достъпни материали за предварителна подготовка
Въведение (на български):
http://www.larflast.bas.bg/balric/index/
(1) морфологични
ресурси
(2) лексикални
ресурси
(3) корпуси
Паскалева: Технологии
за лексикални изследвания на славянските езици (с различна степен на
близост) чрез паралелни корпуси
ETAP
Russian-English MT
НКРЯ: Национальный корпус
русского языка
RussNet: a wordnet-type
database for Russian
ДИАЛОГ: Компьютерная
лингвистика и интеллектуальные технологии
1.
Корпусная
лингвистика
2.
Машинный
перевод
3.
Системы
поиска и классификации
4.
Компьютерная
лексикография
5.
Лингвистическая
семантика
6.
Формальные
модели анализа и распознавания языковых структур
7.
Психолингвистика
Пример за многоезичен ресурс:
http://langtech.jrc.it/JRC-Acquis.html
Съвременен машинен превод:
http://www.hutchinsweb.me.uk/main.htm
(обща информация)
http://www.mt-archive.info/
(архив)
http://www.euromatrix.net/partners/saarland-university/
Компютърни граматики и синтактични ресурси:
http://wiki.delph-in.net
| http://clark.space.bas.bg
Симов / Осенова: Корпус
от синтактични описания на българския език - BulTreeBank
Paskaleva: Compilation
and Validation of Morphological Resources | Balkan
South-East Corpora Aligned to English |
Paskaleva / Slavcheva: A
Comparative Representation of Two Bulgarian Morphosyntactic Tagsets and
the EAGLES Encoding Standard
Nakov: Design
and Evaluation of Inflectional Stemmer for Bulgarian
| Nakov / Paskaleva: Robust
Ending Guessing Rules with Application to Slavonic Languages |
Nakov / Nakov / Paskaleva: Cognate
or False friend? Ask the Web! | Nakov / Pacovski / Paskaleva: Extracting
Translation Lexicons from Bilingual Corpora: Application to
South-Slavonic Languages
Petrova / Aleksova / Osenova: Electronic
Resources of Slavic Languages – an Overview
Avgustinova: Word
Order and Clitics in Bulgarian | Clustering
Clitics in Bulgarian nominal constituents | Prosodic
constraints in morphosyntactic domains | Gaining
the perspective of a language family oriented grammar design: Special
predicative clitics in Slavic | Arguments,
grammatical relations and diathetic paradigm | Russian
infinitival existential constructions from an HPSG perspective
Avgustinova / Uszkoreit: An
Ontology of Systematic Relations for a Shared Grammar of Slavic | Towards
a Typology of Agreement Phenomena | Reconsidering
relations in constructions with non-verbal predication | Shared
and Non-shared Grammar in Modelling Slavic Morphosyntax