slide1
Download
Skip this Video
Download Presentation
Електронни корпуси: видове, обработки и използване

Loading in 2 Seconds...

play fullscreen
1 / 27

Електронни корпуси: видове, обработки и използване - PowerPoint PPT Presentation


  • 160 Views
  • Uploaded on

Електронни корпуси: видове, обработки и използване. Кирил Симов [email protected] Базирана на материали, разработени заедно с Петя Осенова Секция за лингвистично моделиране Институт за информационни и комуникационни технологии Българска академия на науките

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Електронни корпуси: видове, обработки и използване' - fionn


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1
Електронни корпуси: видове, обработки и използване

Кирил Симов

[email protected]

Базирана на материали, разработени заедно с Петя Осенова

Секция за лингвистично моделиране

Институт за информационни и комуникационни технологии

Българска академия на науките

Факултет по хуманитарни науки, ШУ, Шумен

23 ноември 2012

ФХН, ШУ, Шумен, 23 ноември 2012

slide2
План
  • Корпус
  • Нива на обработка
  • Използване

ФХН, ШУ, Шумен, 23 ноември 2012

slide3
Лингвистиката като емпирична наука
  • Лингвистичните теории се базират на наблюдения над проявления на езика – писмен, реч в определен контекст
  • Корпус е регистрирането на тези проявления и контексти по начин, който позволява тяхното използване в езиковите изследвания
  • В последните 50 години корпусите променят своята медия – от хартия/записи към електронен формат

ФХН, ШУ, Шумен, 23 ноември 2012

slide4
Компютърна корпусна лингвистика
  • Изследва механизмите на извършване на лингвистичната дейност
  • Разработва компютърни модели за подпомагане
    • наблюдението над лингвистичния материал
    • формирането и тестването на лингвистични хипотези
  • Не е теория за езика
  • Не е дял на лингвистиката

ФХН, ШУ, Шумен, 23 ноември 2012

slide5
Предоставя на лингвистите възможност
  • Да работят с огромно количество и разнообразни текстове
  • Да правят обобщения за езика и неговата употреба
  • Да откриват езикови факти, които не са и предполагали, че съществуват

ФХН, ШУ, Шумен, 23 ноември 2012

slide6
Предизвикателствата
  • Как най-добре да се възползваме от съществуването на компютърно достъпни текстове?
  • Кои лингвистични теории ще са най-подходящи за структурирането на едно корпусно ориентирано изследване?
  • Какви лингвистични явления да търсим?
  • Какви приложения могат да имат идеите и подобрените описания на езиците при подобни изследвания?

ФХН, ШУ, Шумен, 23 ноември 2012

slide7
Използване на електронните корпуси
  • като набор от примери за лингвистите
  • като източници на материал за лексикографите
  • като материал за учителите по език и съответно за учащите
  • за обучаване на NLP (Natural Language Processing) приложенията:напр. при машинен превод, тагери, парсери

ФХН, ШУ, Шумен, 23 ноември 2012

slide8
Типове корпуси
  • Корпуси от разговорна реч vs корпуси от писмени текстове
  • Едноезикови vs многоезикови корпуси
  • Корпуси за специална цел vs общи корпуси
  • Аd-hoc корпуси vs балансирани, представителни корпуси
  • Сурови текстове vs маркирани документи
  • Неанотирани vs анотирани корпуси

ФХН, ШУ, Шумен, 23 ноември 2012

slide9
Обработки над корпуси
  • Сегментация на текста
  • Морфологичен анализ
  • Снемане на многозначност
  • Лематизация
  • Синтактичен анализ
  • Семантичен анализ
  • Прагматика, знание за света

ФХН, ШУ, Шумен, 23 ноември 2012

slide10
Сегментация на текста
  • Определяне на границите на изреченията в текста

Проблем: Какво е изречение?

  • Определяне на потенциалните думи в текста

Проблем: Какво е дума

(Tokenization and sentence boundaries identification)

ФХН, ШУ, Шумен, 23 ноември 2012

slide11
Граница на изречението
  • Всяко срещане на . или ? или ! обозначава граница на изречение
  • Съкращения – г., ген., полк., т.н.

Върна се през 1992 г. Петров беше напуснал.

Тогава ген. Петров беше напуснал.

  • Непряка реч

“Момчетата играха на границите на силите си. Но ... ...” – каза Стоичков – “ ... ... ...”

ФХН, ШУ, Шумен, 23 ноември 2012

slide12
Потенциални думи
  • Всеки низ от символи между два интервала е потенциална дума
  • Проблемни случаи:
    • препинателните знаци се пишат заедно с предишната дума: така е, ако смяташ
    • препинателни знаци могат да са част от думите: министър-председател, О\'Хенри, Сидни\'96
    • специални изрази: $100, МиГ-29

ФХН, ШУ, Шумен, 23 ноември 2012

tokenization
Тоукънизация (Tokenization)
  • Тоукъне низ, който е минимален низ от символи, който е част от потенциална дума
  • Тоукъните са групирани в типове:

кирилица (Cyr), кирилицасглавнабуква (CyrC), кирилицасамосглавнибукви (CyrAC), кирилицасамосмалкибукви (CyrAS), латиница (LAT), цифри (Num), пунктуация (Punkt), разделители (SP) (интервал, табулация, новред), специалнисимволи (Spec)

ФХН, ШУ, Шумен, 23 ноември 2012

slide14
Пример

По-високиятмъжбешекихнал.

ПоCyrC

-Punkt

високиятCyrAS

мъжCyrAS

бешеCyrAS

кихналCyrAS

      . Punkt

Проблеми: По-високия, Стара Загора-Велико Търново, “беше кихнал”, “за да”, “себе си”

ФХН, ШУ, Шумен, 23 ноември 2012

slide15
Морфологичен анализ
  • Определяне кои потенциални думи са “истински” думи и да им се препишат граматичните характеристики

По (Р;З;А)-високият (Пмеп) мъж (Снмен) беше (Гнндн2е;Гнндн3е) кихнал (Гснпаемдн).

По-високият (Пмеп) мъж (Снмен) беше (Гнндн2е;Гнндн3е) кихнал (Гснпаемдн).

ФХН, ШУ, Шумен, 23 ноември 2012

slide16
Снемане на многозначността
  • Премахвамногозначносттанасъответнотониво

По-високият (Пмеп) мъж (Снмен) беше (Гнндн3е) кихнал (Гснпаемдн).

  • Ръчно снемане на многозначността
  • Автоматично снемане на многозначността

ФХН, ШУ, Шумен, 23 ноември 2012

slide17
Корпус еталон
  • Корпус еталон (“златен” корпус) е корпус, анотиран на дадено ниво от специално подготвени анотатори
  • Този корпус се използва като
    • Еталон за лингвистичното знание за дадената област
    • Източник на лингвистично знание за автоматични средства за анализ на даденото явление

ФХН, ШУ, Шумен, 23 ноември 2012

slide18
Построяване на корпус еталон
  • Ръководство на анотатора
  • Софтуер, поддържащ работата на анотатора
  • Измерване на качеството на анотиране
  • Най-малко двама анотатори обработват един и същ езиков материал – измерването на качеството се дефинира чрез процента на съгласуваност между анотаторите
  • Експерт решава трудните случаи

ФХН, ШУ, Шумен, 23 ноември 2012

slide19
Автоматично анотиране
  • Два подхода
    • Правила, написани от експерт

Ако думата е многозначна между кратък член и бройна форма и предишната дума е числително име или прилагателно множествено число, то избери бройна форма

    • Статистически методи – машинно самообучение

Разглежда се контекст, представен чрез характеристики и на базата на корпуса еталон се научават предпочитания за едно или друго решение

  • Хибридни методи

ФХН, ШУ, Шумен, 23 ноември 2012

slide20
Оценка на качеството
  • Ако за всеки фрагмент се взима решение, то качеството се измерва като
    • точност – процентът на правилните решения
  • Ако не се взима решение за всеки фрагмент, то качеството се измерва като
    • точност – процентът на правилните решения от всички решения
    • покритие – процентът на откритите правилни решения от всички правилни случаи

ФХН, ШУ, Шумен, 23 ноември 2012

slide21
Представяне на анотация

Два основни подхода:

  • Допълващ – текстът и анотацията се представят заедно
  • Референтен – текстът не се модифицира, а анотацията реферира към части от текста
  • Формално се изразяват чрез маркиращи езици: HTML, SGML, XML, TiGerML, LaTeX, RTF, …

ФХН, ШУ, Шумен, 23 ноември 2012

slide22
Лематизация
  • За всяка словоформа в текста да бъде определена основната форма – лема
  • Многозначност: белите  бял, беля (Г), беля (С)
  • В българския език словоизменителният речник помага за на 99% от случаите, заедно с морфологичното анотиране
  • Проблеми при дублетни основни форми: знам и зная

ФХН, ШУ, Шумен, 23 ноември 2012

slide23
Синтактично анотиране
  • Избор на лингвистична теория – конституентен или депендентен подход
  • Ръководството за анотиране е граматика на езика
  • Правила за избор на анализ при няколко конкуриращи се анализа

ФХН, ШУ, Шумен, 23 ноември 2012

slide24
Семантичен анализ
  • Лексикална семантика и изреченска семантика
  • Източник на значение – речници, тезауруси, формални йерархии от понятия
  • Логическа форма на изречението

ФХН, ШУ, Шумен, 23 ноември 2012

slide25
Прагматика и знание за света
  • Връзката с контекста на изказването
  • Знанието за света при разбирането на текста:

Тази тема беше обсъдена на срещата за изменение на климата в Доха, Катар.

ФХН, ШУ, Шумен, 23 ноември 2012

slide26
Многоезични корпуси
  • Паралелни корпуси – превод и оригинал
  • Съпоставими корпуси – текстове на една и съща тема, събитие и т.н.
  • Подравняване на различни нива: параграфи, изречения, фрази и думи
  • Използване при машинния превод

ФХН, ШУ, Шумен, 23 ноември 2012

slide27
Заключение
  • Езиковите ресурси – корпуси, граматики и лексикони са богатство за дадения език
  • За българския език има направени много ресурси, но има нужда от много нови и от разширяването на старите
  • Освен за изследователски цели, много важно приложение са езиковите технологии

ФХН, ШУ, Шумен, 23 ноември 2012

ad