Електронни корпуси: видове, обработки и използване
Download
1 / 27

?????????? ???????: ??????, ????????? ? ?????????? - PowerPoint PPT Presentation


 • 162 Views
 • Uploaded on

Електронни корпуси: видове, обработки и използване. Кирил Симов kivs@bultreebank.org Базирана на материали, разработени заедно с Петя Осенова Секция за лингвистично моделиране Институт за информационни и комуникационни технологии Българска академия на науките

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '?????????? ???????: ??????, ????????? ? ??????????' - fionn


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
5072377
Електронни корпуси: видове, обработки и използване

Кирил Симов

kivs@bultreebank.org

Базирана на материали, разработени заедно с Петя Осенова

Секция за лингвистично моделиране

Институт за информационни и комуникационни технологии

Българска академия на науките

Факултет по хуманитарни науки, ШУ, Шумен

23 ноември 2012

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
План обработки и използване

 • Корпус

 • Нива на обработка

 • Използване

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Лингвистиката като емпирична наука

 • Лингвистичните теории се базират на наблюдения над проявления на езика – писмен, реч в определен контекст

 • Корпус е регистрирането на тези проявления и контексти по начин, който позволява тяхното използване в езиковите изследвания

 • В последните 50 години корпусите променят своята медия – от хартия/записи към електронен формат

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Компютърна корпусна лингвистика наука

 • Изследва механизмите на извършване на лингвистичната дейност

 • Разработва компютърни модели за подпомагане

  • наблюдението над лингвистичния материал

  • формирането и тестването на лингвистични хипотези

 • Не е теория за езика

 • Не е дял на лингвистиката

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Предоставя на лингвистите възможност

 • Да работят с огромно количество и разнообразни текстове

 • Да правят обобщения за езика и неговата употреба

 • Да откриват езикови факти, които не са и предполагали, че съществуват

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Предизвикателствата възможност

 • Как най-добре да се възползваме от съществуването на компютърно достъпни текстове?

 • Кои лингвистични теории ще са най-подходящи за структурирането на едно корпусно ориентирано изследване?

 • Какви лингвистични явления да търсим?

 • Какви приложения могат да имат идеите и подобрените описания на езиците при подобни изследвания?

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Използване на електронните корпуси

 • като набор от примери за лингвистите

 • като източници на материал за лексикографите

 • като материал за учителите по език и съответно за учащите

 • за обучаване на NLP (Natural Language Processing) приложенията:напр. при машинен превод, тагери, парсери

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Типове корпуси корпуси

 • Корпуси от разговорна реч vs корпуси от писмени текстове

 • Едноезикови vs многоезикови корпуси

 • Корпуси за специална цел vs общи корпуси

 • Аd-hoc корпуси vs балансирани, представителни корпуси

 • Сурови текстове vs маркирани документи

 • Неанотирани vs анотирани корпуси

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Обработки над корпуси корпуси

 • Сегментация на текста

 • Морфологичен анализ

 • Снемане на многозначност

 • Лематизация

 • Синтактичен анализ

 • Семантичен анализ

 • Прагматика, знание за света

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Сегментация на текста корпуси

 • Определяне на границите на изреченията в текста

  Проблем: Какво е изречение?

 • Определяне на потенциалните думи в текста

  Проблем: Какво е дума

  (Tokenization and sentence boundaries identification)

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Граница на изречението корпуси

 • Всяко срещане на . или ? или ! обозначава граница на изречение

 • Съкращения – г., ген., полк., т.н.

  Върна се през 1992 г. Петров беше напуснал.

  Тогава ген. Петров беше напуснал.

 • Непряка реч

  “Момчетата играха на границите на силите си. Но ... ...” – каза Стоичков – “ ... ... ...”

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Потенциални думи корпуси

 • Всеки низ от символи между два интервала е потенциална дума

 • Проблемни случаи:

  • препинателните знаци се пишат заедно с предишната дума: така е, ако смяташ

  • препинателни знаци могат да са част от думите: министър-председател, О'Хенри, Сидни'96

  • специални изрази: $100, МиГ-29

ФХН, ШУ, Шумен, 23 ноември 2012


Tokenization
Тоукънизация ( корпусиTokenization)

 • Тоукъне низ, който е минимален низ от символи, който е част от потенциална дума

 • Тоукъните са групирани в типове:

  кирилица (Cyr), кирилицасглавнабуква (CyrC), кирилицасамосглавнибукви (CyrAC), кирилицасамосмалкибукви (CyrAS), латиница (LAT), цифри (Num), пунктуация (Punkt), разделители (SP) (интервал, табулация, новред), специалнисимволи (Spec)

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Пример корпуси

По-високиятмъжбешекихнал.

ПоCyrC

-Punkt

високиятCyrAS

мъжCyrAS

бешеCyrAS

кихналCyrAS

      . Punkt

Проблеми: По-високия, Стара Загора-Велико Търново, “беше кихнал”, “за да”, “себе си”

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Морфологичен анализ корпуси

 • Определяне кои потенциални думи са “истински” думи и да им се препишат граматичните характеристики

  По (Р;З;А)-високият (Пмеп) мъж (Снмен) беше (Гнндн2е;Гнндн3е) кихнал (Гснпаемдн).

  По-високият (Пмеп) мъж (Снмен) беше (Гнндн2е;Гнндн3е) кихнал (Гснпаемдн).

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Снемане на многозначността корпуси

 • Премахвамногозначносттанасъответнотониво

  По-високият (Пмеп) мъж (Снмен) беше (Гнндн3е) кихнал (Гснпаемдн).

 • Ръчно снемане на многозначността

 • Автоматично снемане на многозначността

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Корпус еталон корпуси

 • Корпус еталон (“златен” корпус) е корпус, анотиран на дадено ниво от специално подготвени анотатори

 • Този корпус се използва като

  • Еталон за лингвистичното знание за дадената област

  • Източник на лингвистично знание за автоматични средства за анализ на даденото явление

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Построяване на корпус еталон корпуси

 • Ръководство на анотатора

 • Софтуер, поддържащ работата на анотатора

 • Измерване на качеството на анотиране

 • Най-малко двама анотатори обработват един и същ езиков материал – измерването на качеството се дефинира чрез процента на съгласуваност между анотаторите

 • Експерт решава трудните случаи

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Автоматично анотиране корпуси

 • Два подхода

  • Правила, написани от експерт

   Ако думата е многозначна между кратък член и бройна форма и предишната дума е числително име или прилагателно множествено число, то избери бройна форма

  • Статистически методи – машинно самообучение

   Разглежда се контекст, представен чрез характеристики и на базата на корпуса еталон се научават предпочитания за едно или друго решение

 • Хибридни методи

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Оценка на качеството корпуси

 • Ако за всеки фрагмент се взима решение, то качеството се измерва като

  • точност – процентът на правилните решения

 • Ако не се взима решение за всеки фрагмент, то качеството се измерва като

  • точност – процентът на правилните решения от всички решения

  • покритие – процентът на откритите правилни решения от всички правилни случаи

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Представяне на анотация корпуси

Два основни подхода:

 • Допълващ – текстът и анотацията се представят заедно

 • Референтен – текстът не се модифицира, а анотацията реферира към части от текста

 • Формално се изразяват чрез маркиращи езици: HTML, SGML, XML, TiGerML, LaTeX, RTF, …

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Лематизация корпуси

 • За всяка словоформа в текста да бъде определена основната форма – лема

 • Многозначност: белите  бял, беля (Г), беля (С)

 • В българския език словоизменителният речник помага за на 99% от случаите, заедно с морфологичното анотиране

 • Проблеми при дублетни основни форми: знам и зная

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Синтактично анотиране корпуси

 • Избор на лингвистична теория – конституентен или депендентен подход

 • Ръководството за анотиране е граматика на езика

 • Правила за избор на анализ при няколко конкуриращи се анализа

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Семантичен анализ корпуси

 • Лексикална семантика и изреченска семантика

 • Източник на значение – речници, тезауруси, формални йерархии от понятия

 • Логическа форма на изречението

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Прагматика и знание за света корпуси

 • Връзката с контекста на изказването

 • Знанието за света при разбирането на текста:

  Тази тема беше обсъдена на срещата за изменение на климата в Доха, Катар.

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Многоезични корпуси корпуси

 • Паралелни корпуси – превод и оригинал

 • Съпоставими корпуси – текстове на една и съща тема, събитие и т.н.

 • Подравняване на различни нива: параграфи, изречения, фрази и думи

 • Използване при машинния превод

ФХН, ШУ, Шумен, 23 ноември 2012


5072377
Заключение корпуси

 • Езиковите ресурси – корпуси, граматики и лексикони са богатство за дадения език

 • За българския език има направени много ресурси, но има нужда от много нови и от разширяването на старите

 • Освен за изследователски цели, много важно приложение са езиковите технологии

ФХН, ШУ, Шумен, 23 ноември 2012


ad