Електронни корпуси: видове, обработки и използване - PowerPoint PPT Presentation

Електронни корпуси: видове, обработки и използване
Download
1 / 27

 • 147 Views
 • Uploaded on
 • Presentation posted in: General

Електронни корпуси: видове, обработки и използване. Кирил Симов kivs@bultreebank.org Базирана на материали, разработени заедно с Петя Осенова Секция за лингвистично моделиране Институт за информационни и комуникационни технологии Българска академия на науките

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha

Download Presentationdownload

Електронни корпуси: видове, обработки и използване

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


5072377

Електронни корпуси: видове, обработки и използване

Кирил Симов

kivs@bultreebank.org

Базирана на материали, разработени заедно с Петя Осенова

Секция за лингвистично моделиране

Институт за информационни и комуникационни технологии

Българска академия на науките

Факултет по хуманитарни науки, ШУ, Шумен

23 ноември 2012

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

План

 • Корпус

 • Нива на обработка

 • Използване

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Лингвистиката като емпирична наука

 • Лингвистичните теории се базират на наблюдения над проявления на езика – писмен, реч в определен контекст

 • Корпус е регистрирането на тези проявления и контексти по начин, който позволява тяхното използване в езиковите изследвания

 • В последните 50 години корпусите променят своята медия – от хартия/записи към електронен формат

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Компютърна корпусна лингвистика

 • Изследва механизмите на извършване на лингвистичната дейност

 • Разработва компютърни модели за подпомагане

  • наблюдението над лингвистичния материал

  • формирането и тестването на лингвистични хипотези

 • Не е теория за езика

 • Не е дял на лингвистиката

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Предоставя на лингвистите възможност

 • Да работят с огромно количество и разнообразни текстове

 • Да правят обобщения за езика и неговата употреба

 • Да откриват езикови факти, които не са и предполагали, че съществуват

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Предизвикателствата

 • Как най-добре да се възползваме от съществуването на компютърно достъпни текстове?

 • Кои лингвистични теории ще са най-подходящи за структурирането на едно корпусно ориентирано изследване?

 • Какви лингвистични явления да търсим?

 • Какви приложения могат да имат идеите и подобрените описания на езиците при подобни изследвания?

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Използване на електронните корпуси

 • като набор от примери за лингвистите

 • като източници на материал за лексикографите

 • като материал за учителите по език и съответно за учащите

 • за обучаване на NLP (Natural Language Processing) приложенията:напр. при машинен превод, тагери, парсери

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Типове корпуси

 • Корпуси от разговорна реч vs корпуси от писмени текстове

 • Едноезикови vs многоезикови корпуси

 • Корпуси за специална цел vs общи корпуси

 • Аd-hoc корпуси vs балансирани, представителни корпуси

 • Сурови текстове vs маркирани документи

 • Неанотирани vs анотирани корпуси

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Обработки над корпуси

 • Сегментация на текста

 • Морфологичен анализ

 • Снемане на многозначност

 • Лематизация

 • Синтактичен анализ

 • Семантичен анализ

 • Прагматика, знание за света

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Сегментация на текста

 • Определяне на границите на изреченията в текста

  Проблем: Какво е изречение?

 • Определяне на потенциалните думи в текста

  Проблем: Какво е дума

  (Tokenization and sentence boundaries identification)

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Граница на изречението

 • Всяко срещане на . или ? или ! обозначава граница на изречение

 • Съкращения – г., ген., полк., т.н.

  Върна се през 1992 г. Петров беше напуснал.

  Тогава ген. Петров беше напуснал.

 • Непряка реч

  “Момчетата играха на границите на силите си. Но ... ...” – каза Стоичков – “ ... ... ...”

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Потенциални думи

 • Всеки низ от символи между два интервала е потенциална дума

 • Проблемни случаи:

  • препинателните знаци се пишат заедно с предишната дума: така е, ако смяташ

  • препинателни знаци могат да са част от думите: министър-председател, О'Хенри, Сидни'96

  • специални изрази: $100, МиГ-29

ФХН, ШУ, Шумен, 23 ноември 2012


Tokenization

Тоукънизация (Tokenization)

 • Тоукъне низ, който е минимален низ от символи, който е част от потенциална дума

 • Тоукъните са групирани в типове:

  кирилица (Cyr), кирилицасглавнабуква (CyrC), кирилицасамосглавнибукви (CyrAC), кирилицасамосмалкибукви (CyrAS), латиница (LAT), цифри (Num), пунктуация (Punkt), разделители (SP) (интервал, табулация, новред), специалнисимволи (Spec)

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Пример

По-високиятмъжбешекихнал.

ПоCyrC

-Punkt

високиятCyrAS

мъжCyrAS

бешеCyrAS

кихналCyrAS

      .Punkt

Проблеми: По-високия, Стара Загора-Велико Търново, “беше кихнал”, “за да”, “себе си”

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Морфологичен анализ

 • Определяне кои потенциални думи са “истински” думи и да им се препишат граматичните характеристики

  По (Р;З;А)-високият (Пмеп) мъж (Снмен) беше (Гнндн2е;Гнндн3е) кихнал (Гснпаемдн).

  По-високият (Пмеп) мъж (Снмен) беше (Гнндн2е;Гнндн3е) кихнал (Гснпаемдн).

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Снемане на многозначността

 • Премахвамногозначносттанасъответнотониво

  По-високият (Пмеп) мъж (Снмен) беше (Гнндн3е) кихнал (Гснпаемдн).

 • Ръчно снемане на многозначността

 • Автоматично снемане на многозначността

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Корпус еталон

 • Корпус еталон (“златен” корпус) е корпус, анотиран на дадено ниво от специално подготвени анотатори

 • Този корпус се използва като

  • Еталон за лингвистичното знание за дадената област

  • Източник на лингвистично знание за автоматични средства за анализ на даденото явление

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Построяване на корпус еталон

 • Ръководство на анотатора

 • Софтуер, поддържащ работата на анотатора

 • Измерване на качеството на анотиране

 • Най-малко двама анотатори обработват един и същ езиков материал – измерването на качеството се дефинира чрез процента на съгласуваност между анотаторите

 • Експерт решава трудните случаи

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Автоматично анотиране

 • Два подхода

  • Правила, написани от експерт

   Ако думата е многозначна между кратък член и бройна форма и предишната дума е числително име или прилагателно множествено число, то избери бройна форма

  • Статистически методи – машинно самообучение

   Разглежда се контекст, представен чрез характеристики и на базата на корпуса еталон се научават предпочитания за едно или друго решение

 • Хибридни методи

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Оценка на качеството

 • Ако за всеки фрагмент се взима решение, то качеството се измерва като

  • точност – процентът на правилните решения

 • Ако не се взима решение за всеки фрагмент, то качеството се измерва като

  • точност – процентът на правилните решения от всички решения

  • покритие – процентът на откритите правилни решения от всички правилни случаи

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Представяне на анотация

Два основни подхода:

 • Допълващ – текстът и анотацията се представят заедно

 • Референтен – текстът не се модифицира, а анотацията реферира към части от текста

 • Формално се изразяват чрез маркиращи езици: HTML, SGML, XML, TiGerML, LaTeX, RTF, …

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Лематизация

 • За всяка словоформа в текста да бъде определена основната форма – лема

 • Многозначност: белите  бял, беля (Г), беля (С)

 • В българския език словоизменителният речник помага за на 99% от случаите, заедно с морфологичното анотиране

 • Проблеми при дублетни основни форми: знам и зная

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Синтактично анотиране

 • Избор на лингвистична теория – конституентен или депендентен подход

 • Ръководството за анотиране е граматика на езика

 • Правила за избор на анализ при няколко конкуриращи се анализа

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Семантичен анализ

 • Лексикална семантика и изреченска семантика

 • Източник на значение – речници, тезауруси, формални йерархии от понятия

 • Логическа форма на изречението

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Прагматика и знание за света

 • Връзката с контекста на изказването

 • Знанието за света при разбирането на текста:

  Тази тема беше обсъдена на срещата за изменение на климата в Доха, Катар.

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Многоезични корпуси

 • Паралелни корпуси – превод и оригинал

 • Съпоставими корпуси – текстове на една и съща тема, събитие и т.н.

 • Подравняване на различни нива: параграфи, изречения, фрази и думи

 • Използване при машинния превод

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Заключение

 • Езиковите ресурси – корпуси, граматики и лексикони са богатство за дадения език

 • За българския език има направени много ресурси, но има нужда от много нови и от разширяването на старите

 • Освен за изследователски цели, много важно приложение са езиковите технологии

ФХН, ШУ, Шумен, 23 ноември 2012


ad
 • Login