Електронни корпуси: видове, обработки и използване
Download
1 / 27

Електронни корпуси: видове, обработки и използване - PowerPoint PPT Presentation


  • 157 Views
  • Uploaded on

Електронни корпуси: видове, обработки и използване. Кирил Симов [email protected] Базирана на материали, разработени заедно с Петя Осенова Секция за лингвистично моделиране Институт за информационни и комуникационни технологии Българска академия на науките

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Електронни корпуси: видове, обработки и използване' - fionn


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Електронни корпуси: видове, обработки и използване

Кирил Симов

[email protected]

Базирана на материали, разработени заедно с Петя Осенова

Секция за лингвистично моделиране

Институт за информационни и комуникационни технологии

Българска академия на науките

Факултет по хуманитарни науки, ШУ, Шумен

23 ноември 2012

ФХН, ШУ, Шумен, 23 ноември 2012


План обработки и използване

  • Корпус

  • Нива на обработка

  • Използване

ФХН, ШУ, Шумен, 23 ноември 2012


Лингвистиката като емпирична наука

  • Лингвистичните теории се базират на наблюдения над проявления на езика – писмен, реч в определен контекст

  • Корпус е регистрирането на тези проявления и контексти по начин, който позволява тяхното използване в езиковите изследвания

  • В последните 50 години корпусите променят своята медия – от хартия/записи към електронен формат

ФХН, ШУ, Шумен, 23 ноември 2012


Компютърна корпусна лингвистика наука

  • Изследва механизмите на извършване на лингвистичната дейност

  • Разработва компютърни модели за подпомагане

    • наблюдението над лингвистичния материал

    • формирането и тестването на лингвистични хипотези

  • Не е теория за езика

  • Не е дял на лингвистиката

ФХН, ШУ, Шумен, 23 ноември 2012


Предоставя на лингвистите възможност

  • Да работят с огромно количество и разнообразни текстове

  • Да правят обобщения за езика и неговата употреба

  • Да откриват езикови факти, които не са и предполагали, че съществуват

ФХН, ШУ, Шумен, 23 ноември 2012


Предизвикателствата възможност

  • Как най-добре да се възползваме от съществуването на компютърно достъпни текстове?

  • Кои лингвистични теории ще са най-подходящи за структурирането на едно корпусно ориентирано изследване?

  • Какви лингвистични явления да търсим?

  • Какви приложения могат да имат идеите и подобрените описания на езиците при подобни изследвания?

ФХН, ШУ, Шумен, 23 ноември 2012


Използване на електронните корпуси

  • като набор от примери за лингвистите

  • като източници на материал за лексикографите

  • като материал за учителите по език и съответно за учащите

  • за обучаване на NLP (Natural Language Processing) приложенията:напр. при машинен превод, тагери, парсери

ФХН, ШУ, Шумен, 23 ноември 2012


Типове корпуси корпуси

  • Корпуси от разговорна реч vs корпуси от писмени текстове

  • Едноезикови vs многоезикови корпуси

  • Корпуси за специална цел vs общи корпуси

  • Аd-hoc корпуси vs балансирани, представителни корпуси

  • Сурови текстове vs маркирани документи

  • Неанотирани vs анотирани корпуси

ФХН, ШУ, Шумен, 23 ноември 2012


Обработки над корпуси корпуси

  • Сегментация на текста

  • Морфологичен анализ

  • Снемане на многозначност

  • Лематизация

  • Синтактичен анализ

  • Семантичен анализ

  • Прагматика, знание за света

ФХН, ШУ, Шумен, 23 ноември 2012


Сегментация на текста корпуси

  • Определяне на границите на изреченията в текста

    Проблем: Какво е изречение?

  • Определяне на потенциалните думи в текста

    Проблем: Какво е дума

    (Tokenization and sentence boundaries identification)

ФХН, ШУ, Шумен, 23 ноември 2012


Граница на изречението корпуси

  • Всяко срещане на . или ? или ! обозначава граница на изречение

  • Съкращения – г., ген., полк., т.н.

    Върна се през 1992 г. Петров беше напуснал.

    Тогава ген. Петров беше напуснал.

  • Непряка реч

    “Момчетата играха на границите на силите си. Но ... ...” – каза Стоичков – “ ... ... ...”

ФХН, ШУ, Шумен, 23 ноември 2012


Потенциални думи корпуси

  • Всеки низ от символи между два интервала е потенциална дума

  • Проблемни случаи:

    • препинателните знаци се пишат заедно с предишната дума: така е, ако смяташ

    • препинателни знаци могат да са част от думите: министър-председател, О'Хенри, Сидни'96

    • специални изрази: $100, МиГ-29

ФХН, ШУ, Шумен, 23 ноември 2012


Tokenization
Тоукънизация ( корпусиTokenization)

  • Тоукъне низ, който е минимален низ от символи, който е част от потенциална дума

  • Тоукъните са групирани в типове:

    кирилица (Cyr), кирилицасглавнабуква (CyrC), кирилицасамосглавнибукви (CyrAC), кирилицасамосмалкибукви (CyrAS), латиница (LAT), цифри (Num), пунктуация (Punkt), разделители (SP) (интервал, табулация, новред), специалнисимволи (Spec)

ФХН, ШУ, Шумен, 23 ноември 2012


Пример корпуси

По-високиятмъжбешекихнал.

ПоCyrC

-Punkt

високиятCyrAS

мъжCyrAS

бешеCyrAS

кихналCyrAS

      . Punkt

Проблеми: По-високия, Стара Загора-Велико Търново, “беше кихнал”, “за да”, “себе си”

ФХН, ШУ, Шумен, 23 ноември 2012


Морфологичен анализ корпуси

  • Определяне кои потенциални думи са “истински” думи и да им се препишат граматичните характеристики

    По (Р;З;А)-високият (Пмеп) мъж (Снмен) беше (Гнндн2е;Гнндн3е) кихнал (Гснпаемдн).

    По-високият (Пмеп) мъж (Снмен) беше (Гнндн2е;Гнндн3е) кихнал (Гснпаемдн).

ФХН, ШУ, Шумен, 23 ноември 2012


Снемане на многозначността корпуси

  • Премахвамногозначносттанасъответнотониво

    По-високият (Пмеп) мъж (Снмен) беше (Гнндн3е) кихнал (Гснпаемдн).

  • Ръчно снемане на многозначността

  • Автоматично снемане на многозначността

ФХН, ШУ, Шумен, 23 ноември 2012


Корпус еталон корпуси

  • Корпус еталон (“златен” корпус) е корпус, анотиран на дадено ниво от специално подготвени анотатори

  • Този корпус се използва като

    • Еталон за лингвистичното знание за дадената област

    • Източник на лингвистично знание за автоматични средства за анализ на даденото явление

ФХН, ШУ, Шумен, 23 ноември 2012


Построяване на корпус еталон корпуси

  • Ръководство на анотатора

  • Софтуер, поддържащ работата на анотатора

  • Измерване на качеството на анотиране

  • Най-малко двама анотатори обработват един и същ езиков материал – измерването на качеството се дефинира чрез процента на съгласуваност между анотаторите

  • Експерт решава трудните случаи

ФХН, ШУ, Шумен, 23 ноември 2012


Автоматично анотиране корпуси

  • Два подхода

    • Правила, написани от експерт

      Ако думата е многозначна между кратък член и бройна форма и предишната дума е числително име или прилагателно множествено число, то избери бройна форма

    • Статистически методи – машинно самообучение

      Разглежда се контекст, представен чрез характеристики и на базата на корпуса еталон се научават предпочитания за едно или друго решение

  • Хибридни методи

ФХН, ШУ, Шумен, 23 ноември 2012


Оценка на качеството корпуси

  • Ако за всеки фрагмент се взима решение, то качеството се измерва като

    • точност – процентът на правилните решения

  • Ако не се взима решение за всеки фрагмент, то качеството се измерва като

    • точност – процентът на правилните решения от всички решения

    • покритие – процентът на откритите правилни решения от всички правилни случаи

ФХН, ШУ, Шумен, 23 ноември 2012


Представяне на анотация корпуси

Два основни подхода:

  • Допълващ – текстът и анотацията се представят заедно

  • Референтен – текстът не се модифицира, а анотацията реферира към части от текста

  • Формално се изразяват чрез маркиращи езици: HTML, SGML, XML, TiGerML, LaTeX, RTF, …

ФХН, ШУ, Шумен, 23 ноември 2012


Лематизация корпуси

  • За всяка словоформа в текста да бъде определена основната форма – лема

  • Многозначност: белите  бял, беля (Г), беля (С)

  • В българския език словоизменителният речник помага за на 99% от случаите, заедно с морфологичното анотиране

  • Проблеми при дублетни основни форми: знам и зная

ФХН, ШУ, Шумен, 23 ноември 2012


Синтактично анотиране корпуси

  • Избор на лингвистична теория – конституентен или депендентен подход

  • Ръководството за анотиране е граматика на езика

  • Правила за избор на анализ при няколко конкуриращи се анализа

ФХН, ШУ, Шумен, 23 ноември 2012


Семантичен анализ корпуси

  • Лексикална семантика и изреченска семантика

  • Източник на значение – речници, тезауруси, формални йерархии от понятия

  • Логическа форма на изречението

ФХН, ШУ, Шумен, 23 ноември 2012


Прагматика и знание за света корпуси

  • Връзката с контекста на изказването

  • Знанието за света при разбирането на текста:

    Тази тема беше обсъдена на срещата за изменение на климата в Доха, Катар.

ФХН, ШУ, Шумен, 23 ноември 2012


Многоезични корпуси корпуси

  • Паралелни корпуси – превод и оригинал

  • Съпоставими корпуси – текстове на една и съща тема, събитие и т.н.

  • Подравняване на различни нива: параграфи, изречения, фрази и думи

  • Използване при машинния превод

ФХН, ШУ, Шумен, 23 ноември 2012


Заключение корпуси

  • Езиковите ресурси – корпуси, граматики и лексикони са богатство за дадения език

  • За българския език има направени много ресурси, но има нужда от много нови и от разширяването на старите

  • Освен за изследователски цели, много важно приложение са езиковите технологии

ФХН, ШУ, Шумен, 23 ноември 2012


ad