290 likes | 574 Views
Електронни корпуси: видове, обработки и използване. Кирил Симов kivs@bultreebank.org Базирана на материали, разработени заедно с Петя Осенова Секция за лингвистично моделиране Институт за информационни и комуникационни технологии Българска академия на науките
E N D
Електронни корпуси: видове, обработки и използване Кирил Симов kivs@bultreebank.org Базирана на материали, разработени заедно с Петя Осенова Секция за лингвистично моделиране Институт за информационни и комуникационни технологии Българска академия на науките Факултет по хуманитарни науки, ШУ, Шумен 23 ноември 2012 ФХН, ШУ, Шумен, 23 ноември 2012
План • Корпус • Нива на обработка • Използване ФХН, ШУ, Шумен, 23 ноември 2012
Лингвистиката като емпирична наука • Лингвистичните теории се базират на наблюдения над проявления на езика – писмен, реч в определен контекст • Корпус е регистрирането на тези проявления и контексти по начин, който позволява тяхното използване в езиковите изследвания • В последните 50 години корпусите променят своята медия – от хартия/записи към електронен формат ФХН, ШУ, Шумен, 23 ноември 2012
Компютърна корпусна лингвистика • Изследва механизмите на извършване на лингвистичната дейност • Разработва компютърни модели за подпомагане • наблюдението над лингвистичния материал • формирането и тестването на лингвистични хипотези • Не е теория за езика • Не е дял на лингвистиката ФХН, ШУ, Шумен, 23 ноември 2012
Предоставя на лингвистите възможност • Да работят с огромно количество и разнообразни текстове • Да правят обобщения за езика и неговата употреба • Да откриват езикови факти, които не са и предполагали, че съществуват ФХН, ШУ, Шумен, 23 ноември 2012
Предизвикателствата • Как най-добре да се възползваме от съществуването на компютърно достъпни текстове? • Кои лингвистични теории ще са най-подходящи за структурирането на едно корпусно ориентирано изследване? • Какви лингвистични явления да търсим? • Какви приложения могат да имат идеите и подобрените описания на езиците при подобни изследвания? ФХН, ШУ, Шумен, 23 ноември 2012
Използване на електронните корпуси • като набор от примери за лингвистите • като източници на материал за лексикографите • като материал за учителите по език и съответно за учащите • за обучаване на NLP (Natural Language Processing) приложенията:напр. при машинен превод, тагери, парсери ФХН, ШУ, Шумен, 23 ноември 2012
Типове корпуси • Корпуси от разговорна реч vs корпуси от писмени текстове • Едноезикови vs многоезикови корпуси • Корпуси за специална цел vs общи корпуси • Аd-hoc корпуси vs балансирани, представителни корпуси • Сурови текстове vs маркирани документи • Неанотирани vs анотирани корпуси ФХН, ШУ, Шумен, 23 ноември 2012
Обработки над корпуси • Сегментация на текста • Морфологичен анализ • Снемане на многозначност • Лематизация • Синтактичен анализ • Семантичен анализ • Прагматика, знание за света ФХН, ШУ, Шумен, 23 ноември 2012
Сегментация на текста • Определяне на границите на изреченията в текста Проблем: Какво е изречение? • Определяне на потенциалните думи в текста Проблем: Какво е дума (Tokenization and sentence boundaries identification) ФХН, ШУ, Шумен, 23 ноември 2012
Граница на изречението • Всяко срещане на . или ? или ! обозначава граница на изречение • Съкращения – г., ген., полк., т.н. Върна се през 1992 г. Петров беше напуснал. Тогава ген. Петров беше напуснал. • Непряка реч “Момчетата играха на границите на силите си. Но ... ...” – каза Стоичков – “ ... ... ...” ФХН, ШУ, Шумен, 23 ноември 2012
Потенциални думи • Всеки низ от символи между два интервала е потенциална дума • Проблемни случаи: • препинателните знаци се пишат заедно с предишната дума: така е, ако смяташ • препинателни знаци могат да са част от думите: министър-председател, О'Хенри, Сидни'96 • специални изрази: $100, МиГ-29 ФХН, ШУ, Шумен, 23 ноември 2012
Тоукънизация (Tokenization) • Тоукъне низ, който е минимален низ от символи, който е част от потенциална дума • Тоукъните са групирани в типове: кирилица (Cyr), кирилицасглавнабуква (CyrC), кирилицасамосглавнибукви (CyrAC), кирилицасамосмалкибукви (CyrAS), латиница (LAT), цифри (Num), пунктуация (Punkt), разделители (SP) (интервал, табулация, новред), специалнисимволи (Spec) ФХН, ШУ, Шумен, 23 ноември 2012
Пример По-високиятмъжбешекихнал. ПоCyrC -Punkt високиятCyrAS мъжCyrAS бешеCyrAS кихналCyrAS . Punkt Проблеми: По-високия, Стара Загора-Велико Търново, “беше кихнал”, “за да”, “себе си” ФХН, ШУ, Шумен, 23 ноември 2012
Морфологичен анализ • Определяне кои потенциални думи са “истински” думи и да им се препишат граматичните характеристики По (Р;З;А)-високият (Пмеп) мъж (Снмен) беше (Гнндн2е;Гнндн3е) кихнал (Гснпаемдн). По-високият (Пмеп) мъж (Снмен) беше (Гнндн2е;Гнндн3е) кихнал (Гснпаемдн). ФХН, ШУ, Шумен, 23 ноември 2012
Снемане на многозначността • Премахвамногозначносттанасъответнотониво По-високият (Пмеп) мъж (Снмен) беше (Гнндн3е) кихнал (Гснпаемдн). • Ръчно снемане на многозначността • Автоматично снемане на многозначността ФХН, ШУ, Шумен, 23 ноември 2012
Корпус еталон • Корпус еталон (“златен” корпус) е корпус, анотиран на дадено ниво от специално подготвени анотатори • Този корпус се използва като • Еталон за лингвистичното знание за дадената област • Източник на лингвистично знание за автоматични средства за анализ на даденото явление ФХН, ШУ, Шумен, 23 ноември 2012
Построяване на корпус еталон • Ръководство на анотатора • Софтуер, поддържащ работата на анотатора • Измерване на качеството на анотиране • Най-малко двама анотатори обработват един и същ езиков материал – измерването на качеството се дефинира чрез процента на съгласуваност между анотаторите • Експерт решава трудните случаи ФХН, ШУ, Шумен, 23 ноември 2012
Автоматично анотиране • Два подхода • Правила, написани от експерт Ако думата е многозначна между кратък член и бройна форма и предишната дума е числително име или прилагателно множествено число, то избери бройна форма • Статистически методи – машинно самообучение Разглежда се контекст, представен чрез характеристики и на базата на корпуса еталон се научават предпочитания за едно или друго решение • Хибридни методи ФХН, ШУ, Шумен, 23 ноември 2012
Оценка на качеството • Ако за всеки фрагмент се взима решение, то качеството се измерва като • точност – процентът на правилните решения • Ако не се взима решение за всеки фрагмент, то качеството се измерва като • точност – процентът на правилните решения от всички решения • покритие – процентът на откритите правилни решения от всички правилни случаи ФХН, ШУ, Шумен, 23 ноември 2012
Представяне на анотация Два основни подхода: • Допълващ – текстът и анотацията се представят заедно • Референтен – текстът не се модифицира, а анотацията реферира към части от текста • Формално се изразяват чрез маркиращи езици: HTML, SGML, XML, TiGerML, LaTeX, RTF, … ФХН, ШУ, Шумен, 23 ноември 2012
Лематизация • За всяка словоформа в текста да бъде определена основната форма – лема • Многозначност: белите бял, беля (Г), беля (С) • В българския език словоизменителният речник помага за на 99% от случаите, заедно с морфологичното анотиране • Проблеми при дублетни основни форми: знам и зная ФХН, ШУ, Шумен, 23 ноември 2012
Синтактично анотиране • Избор на лингвистична теория – конституентен или депендентен подход • Ръководството за анотиране е граматика на езика • Правила за избор на анализ при няколко конкуриращи се анализа ФХН, ШУ, Шумен, 23 ноември 2012
Семантичен анализ • Лексикална семантика и изреченска семантика • Източник на значение – речници, тезауруси, формални йерархии от понятия • Логическа форма на изречението ФХН, ШУ, Шумен, 23 ноември 2012
Прагматика и знание за света • Връзката с контекста на изказването • Знанието за света при разбирането на текста: Тази тема беше обсъдена на срещата за изменение на климата в Доха, Катар. ФХН, ШУ, Шумен, 23 ноември 2012
Многоезични корпуси • Паралелни корпуси – превод и оригинал • Съпоставими корпуси – текстове на една и съща тема, събитие и т.н. • Подравняване на различни нива: параграфи, изречения, фрази и думи • Използване при машинния превод ФХН, ШУ, Шумен, 23 ноември 2012
Заключение • Езиковите ресурси – корпуси, граматики и лексикони са богатство за дадения език • За българския език има направени много ресурси, но има нужда от много нови и от разширяването на старите • Освен за изследователски цели, много важно приложение са езиковите технологии ФХН, ШУ, Шумен, 23 ноември 2012