Електронни корпуси: видове, обработки и използване
This presentation is the property of its rightful owner.
Sponsored Links
1 / 27

Електронни корпуси: видове, обработки и използване PowerPoint PPT Presentation


  • 112 Views
  • Uploaded on
  • Presentation posted in: General

Електронни корпуси: видове, обработки и използване. Кирил Симов [email protected] Базирана на материали, разработени заедно с Петя Осенова Секция за лингвистично моделиране Институт за информационни и комуникационни технологии Българска академия на науките

Download Presentation

Електронни корпуси: видове, обработки и използване

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


5072377

Електронни корпуси: видове, обработки и използване

Кирил Симов

[email protected]

Базирана на материали, разработени заедно с Петя Осенова

Секция за лингвистично моделиране

Институт за информационни и комуникационни технологии

Българска академия на науките

Факултет по хуманитарни науки, ШУ, Шумен

23 ноември 2012

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

План

  • Корпус

  • Нива на обработка

  • Използване

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Лингвистиката като емпирична наука

  • Лингвистичните теории се базират на наблюдения над проявления на езика – писмен, реч в определен контекст

  • Корпус е регистрирането на тези проявления и контексти по начин, който позволява тяхното използване в езиковите изследвания

  • В последните 50 години корпусите променят своята медия – от хартия/записи към електронен формат

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Компютърна корпусна лингвистика

  • Изследва механизмите на извършване на лингвистичната дейност

  • Разработва компютърни модели за подпомагане

    • наблюдението над лингвистичния материал

    • формирането и тестването на лингвистични хипотези

  • Не е теория за езика

  • Не е дял на лингвистиката

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Предоставя на лингвистите възможност

  • Да работят с огромно количество и разнообразни текстове

  • Да правят обобщения за езика и неговата употреба

  • Да откриват езикови факти, които не са и предполагали, че съществуват

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Предизвикателствата

  • Как най-добре да се възползваме от съществуването на компютърно достъпни текстове?

  • Кои лингвистични теории ще са най-подходящи за структурирането на едно корпусно ориентирано изследване?

  • Какви лингвистични явления да търсим?

  • Какви приложения могат да имат идеите и подобрените описания на езиците при подобни изследвания?

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Използване на електронните корпуси

  • като набор от примери за лингвистите

  • като източници на материал за лексикографите

  • като материал за учителите по език и съответно за учащите

  • за обучаване на NLP (Natural Language Processing) приложенията:напр. при машинен превод, тагери, парсери

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Типове корпуси

  • Корпуси от разговорна реч vs корпуси от писмени текстове

  • Едноезикови vs многоезикови корпуси

  • Корпуси за специална цел vs общи корпуси

  • Аd-hoc корпуси vs балансирани, представителни корпуси

  • Сурови текстове vs маркирани документи

  • Неанотирани vs анотирани корпуси

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Обработки над корпуси

  • Сегментация на текста

  • Морфологичен анализ

  • Снемане на многозначност

  • Лематизация

  • Синтактичен анализ

  • Семантичен анализ

  • Прагматика, знание за света

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Сегментация на текста

  • Определяне на границите на изреченията в текста

    Проблем: Какво е изречение?

  • Определяне на потенциалните думи в текста

    Проблем: Какво е дума

    (Tokenization and sentence boundaries identification)

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Граница на изречението

  • Всяко срещане на . или ? или ! обозначава граница на изречение

  • Съкращения – г., ген., полк., т.н.

    Върна се през 1992 г. Петров беше напуснал.

    Тогава ген. Петров беше напуснал.

  • Непряка реч

    “Момчетата играха на границите на силите си. Но ... ...” – каза Стоичков – “ ... ... ...”

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Потенциални думи

  • Всеки низ от символи между два интервала е потенциална дума

  • Проблемни случаи:

    • препинателните знаци се пишат заедно с предишната дума: така е, ако смяташ

    • препинателни знаци могат да са част от думите: министър-председател, О'Хенри, Сидни'96

    • специални изрази: $100, МиГ-29

ФХН, ШУ, Шумен, 23 ноември 2012


Tokenization

Тоукънизация (Tokenization)

  • Тоукъне низ, който е минимален низ от символи, който е част от потенциална дума

  • Тоукъните са групирани в типове:

    кирилица (Cyr), кирилицасглавнабуква (CyrC), кирилицасамосглавнибукви (CyrAC), кирилицасамосмалкибукви (CyrAS), латиница (LAT), цифри (Num), пунктуация (Punkt), разделители (SP) (интервал, табулация, новред), специалнисимволи (Spec)

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Пример

По-високиятмъжбешекихнал.

ПоCyrC

-Punkt

високиятCyrAS

мъжCyrAS

бешеCyrAS

кихналCyrAS

      .Punkt

Проблеми: По-високия, Стара Загора-Велико Търново, “беше кихнал”, “за да”, “себе си”

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Морфологичен анализ

  • Определяне кои потенциални думи са “истински” думи и да им се препишат граматичните характеристики

    По (Р;З;А)-високият (Пмеп) мъж (Снмен) беше (Гнндн2е;Гнндн3е) кихнал (Гснпаемдн).

    По-високият (Пмеп) мъж (Снмен) беше (Гнндн2е;Гнндн3е) кихнал (Гснпаемдн).

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Снемане на многозначността

  • Премахвамногозначносттанасъответнотониво

    По-високият (Пмеп) мъж (Снмен) беше (Гнндн3е) кихнал (Гснпаемдн).

  • Ръчно снемане на многозначността

  • Автоматично снемане на многозначността

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Корпус еталон

  • Корпус еталон (“златен” корпус) е корпус, анотиран на дадено ниво от специално подготвени анотатори

  • Този корпус се използва като

    • Еталон за лингвистичното знание за дадената област

    • Източник на лингвистично знание за автоматични средства за анализ на даденото явление

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Построяване на корпус еталон

  • Ръководство на анотатора

  • Софтуер, поддържащ работата на анотатора

  • Измерване на качеството на анотиране

  • Най-малко двама анотатори обработват един и същ езиков материал – измерването на качеството се дефинира чрез процента на съгласуваност между анотаторите

  • Експерт решава трудните случаи

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Автоматично анотиране

  • Два подхода

    • Правила, написани от експерт

      Ако думата е многозначна между кратък член и бройна форма и предишната дума е числително име или прилагателно множествено число, то избери бройна форма

    • Статистически методи – машинно самообучение

      Разглежда се контекст, представен чрез характеристики и на базата на корпуса еталон се научават предпочитания за едно или друго решение

  • Хибридни методи

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Оценка на качеството

  • Ако за всеки фрагмент се взима решение, то качеството се измерва като

    • точност – процентът на правилните решения

  • Ако не се взима решение за всеки фрагмент, то качеството се измерва като

    • точност – процентът на правилните решения от всички решения

    • покритие – процентът на откритите правилни решения от всички правилни случаи

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Представяне на анотация

Два основни подхода:

  • Допълващ – текстът и анотацията се представят заедно

  • Референтен – текстът не се модифицира, а анотацията реферира към части от текста

  • Формално се изразяват чрез маркиращи езици: HTML, SGML, XML, TiGerML, LaTeX, RTF, …

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Лематизация

  • За всяка словоформа в текста да бъде определена основната форма – лема

  • Многозначност: белите  бял, беля (Г), беля (С)

  • В българския език словоизменителният речник помага за на 99% от случаите, заедно с морфологичното анотиране

  • Проблеми при дублетни основни форми: знам и зная

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Синтактично анотиране

  • Избор на лингвистична теория – конституентен или депендентен подход

  • Ръководството за анотиране е граматика на езика

  • Правила за избор на анализ при няколко конкуриращи се анализа

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Семантичен анализ

  • Лексикална семантика и изреченска семантика

  • Източник на значение – речници, тезауруси, формални йерархии от понятия

  • Логическа форма на изречението

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Прагматика и знание за света

  • Връзката с контекста на изказването

  • Знанието за света при разбирането на текста:

    Тази тема беше обсъдена на срещата за изменение на климата в Доха, Катар.

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Многоезични корпуси

  • Паралелни корпуси – превод и оригинал

  • Съпоставими корпуси – текстове на една и съща тема, събитие и т.н.

  • Подравняване на различни нива: параграфи, изречения, фрази и думи

  • Използване при машинния превод

ФХН, ШУ, Шумен, 23 ноември 2012


5072377

Заключение

  • Езиковите ресурси – корпуси, граматики и лексикони са богатство за дадения език

  • За българския език има направени много ресурси, но има нужда от много нови и от разширяването на старите

  • Освен за изследователски цели, много важно приложение са езиковите технологии

ФХН, ШУ, Шумен, 23 ноември 2012


  • Login