1 / 68

Корпуса

Автоматическая обработка текста. Корпуса. Лекция 2. Введение. Обработка текста. Этапы и разработка Корпуса: основные понятия Требования к корпусу Стандарты Разметка. Автоматическая обработка текста. Лингвистические платформы. графематический анализ п репроцессинг (очистка текста)

adonai
Download Presentation

Корпуса

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Автоматическая обработка текста Корпуса Лекция 2

  2. Введение. Обработка текста. Этапы и разработка • Корпуса: основные понятия • Требования к корпусу • Стандарты • Разметка

  3. Автоматическая обработка текста. Лингвистические платформы • графематический анализ • препроцессинг (очистка текста) • токенизатор, • сплиттер • морфологический анализ • нормализация (лемматизация, стемминг) • частеречная разметка (POS-tagging) • синтаксический анализ • полный синтаксический анализ, • chunking, • shallow parsing

  4. Автоматическая обработка текста. Лингвистический конвейер • ??? семантический анализ • распознавание аргументной структуры • semantic role labeling • разрешение анафоры (anaphora resolution) • дискурсивный анализ (риторические структуры) • распознавание именованных сущностей • извлечение фактов • классификация, кластеризация текстов

  5. Разработка модулей • обучение • корпус текстов • обучающий корпус vs. тестовый корпус • специальным образом отобранные тексты • размеченные под проблему (аннотированные)

  6. Разработка: корпуса • Как собирать корпуса? • Как аннотировать корпуса? • специальные технологии сбора корпуса под задачу • vs. использование существующихэкспертных (эталонных) корпусов

  7. Разработка: корпуса • Золотой стандарт Примеры: • НКРЯ со снятой омонимией • Penn-Treebank

  8. Корпус • Корпус – множество текстов, • отобранных исходя из некоторых принципов, • размеченных (аннотированных) • в корпусес помощью специальных программ можно искать необходимые фрагменты текста по заданным параметрам (например, множество текстов одного жанра или автора, множество строчек или предложений, в которых встретилось конкретное слово или словосочетание, множество существительных в родительном падеже и т.п.)

  9. Понятие корпуса Лингвистический, или языковой, корпус текстов – большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.

  10. Основные единицы • Основной элемент хранения в корпусе: текст (может быть полное произведение, фрагмент произведения, одно предложение и т.п.) • - насколько большой объем текстов в данном корпусе, как измерять этот объем, как сравнивать корпуса: в количестве текстов, страниц и т.п.??? Возможный ответ: В словах

  11. Но: что такое слово? Что мы будем считать словом? • Сколько слов в предложении: Ворон к ворону летит Ворон ворону кричит

  12. Что такое слово? Что мы будем считать словом? • словоупотребление • Лемма (множество словоформ, сведенных к одной исходной форме (≈лексема))

  13. Основные единицы • Единицы хранения в корпусе – текст или структурный элемент текста (требование завершенности фрагмента) • Словоупотребление • Лемма (нормализованная форма)

  14. древние древний являть являться Длить Для Лемма =S, мн,од=(род|вин|пр)| древних =A =род,мн|вин,мн,од|пр,мн страд =V=непрош,ед,изъяв,3л,нсв, Является =V=непрош,ед,изъяв,3-л,нсв =V,несов=непрош,деепр для =PR

  15. Основные понятия • Требования к корпусу • Стандарты • Разметка • Типы корпусов • Примеры корпусов

  16. Требования к корпусу • Репрезентативность • Полнота • Экономичность • Структурированность • Компьютерная поддержка

  17. Требования к корпусу:Репрезентативность – способность корпуса текстов отражать все свойства проблемной области, релевантные для данного типа лингвистических исследований, в определенной пропорции, определяемой частотой явления в проблемной области.

  18. Требования к корпусу:РепрезентативностьТребование репрезентативности при создании национального корпуса Размеры и процентные соотношения: • Жанры • Стили • Периоды • Авторы • Хронологические границы ……………………….

  19. Требования к корпусу:РепрезентативностьТребование репрезентативности при создании национального корпуса • Всеобщий корпус, нацеленный на пропорциональный охват языковой практики, по анализам Д. Байбера, должен был бы содержать приблизительно 90% разговоров (обычной разговорной речи), 3% писем и замечаний и 7% опубликованных и неопубликованных текстов классических стилей и жанров.

  20. Требования к корпусу:РепрезентативностьТребование репрезентативности при создании национального корпуса • Обычно художественные тексты составляют в национальных корпусах 20-40%

  21. Требования к корпусу:РепрезентативностьТребование репрезентативности при создании национального корпуса • Если всеобщий национальный корпус составляется из письменных текстов современного языка, при создании проекта все же необходимо: • с хронологической точки зрения ограничить современный язык • с точки зрения репрезентативности определить, будут ли тексты для корпуса подбираться на основе принципа адекватного представления всех стилей и жанров (типов текстов) • или на основе адекватного размещения языковых явлений в соответствующих текстах / целом корпусе

  22. Требования к корпусу:РепрезентативностьТребование репрезентативности при создании национального корпуса • Культурно-репрезентативный корпус • От лингвистической работы часто требуется не языковой пример, а хороший языковой пример, “освященный” авторитетом сочинителя • собрание культурно значимых текстов на данном языке • В практическом преломлении “культурная значимость” • потенциальным источником расхожих цитат текст • признаётся принадлежащим данному слою, если он вносит какой-то вклад в историю русского языка (в том числе и интересен языковыми экспериментами).

  23. Требования к корпусу:РепрезентативностьТребование репрезентативности при создании национального корпуса • культурная значимость не гарантирует “стандартности” авторского языка. • От корпуса языка требуется соответствие узусу и языковой компетенции его образованного носителя. Между тем тексты таких авторов, как Зощенко, Платонов или даже Гоголь изобилуют “авторскими особенностями” • Отсюда задача: “стандартный”, “эталонный” корпус русского языка; языка лишённого по возможности сознательных стилевых и лексических экспериментов, тем не менее “гладкого” и “профессионального”.

  24. Требования к корпусу:РепрезентативностьТребование репрезентативности при создании исследовательского корпуса Например, проблема – корпус текстов по дискурсивным словам русского языка Ср. частота частицы жеvs.типа

  25. Требования к корпусу:Полнота • Полнота В корпусе исследуемое явление должно быть представлено во всей его полноте, включая редкие случаи и отклонения от нормы NB: Полнота требует учета релевантных явлений, даже если они очень редкие и не попадают в корпус в соответствии с требованием репрезентативности

  26. Требования к корпусу:??Экономичность • “Корпус должен экономить усилия исследователя при изучении проблемной области. • В частности, он должен быть не просто строгим подмножеством проблемной области, но, по возможности, существенно отличаться от нее (меньше) по объему” А.Н.Баранов. Введение в прикладную лингвистику. С.119.

  27. Требования к корпусу:Структуризация А.Н.Баранов. Введение в прикладную лингвистику. С.119.

  28. Требования к корпусу:Компьютерная поддержка • необходимы специальные программы по обработке данных • Необходима предварительная подготовка текста для того, чтобы его можно было обрабатывать компьютером

  29. Сбалансированный корпус • в корпусе должны быть представлены в соответствующих пропорциях тексты разных функциональных стилей, жанров, авторов и т.п. (например, как художественная литература, так и газетные и журнальные статьи, учебники, научно-популяпная литература и т.д.). Пример: Брауновский корпусФрэнсис – Кучера. 1млн словоупотреблений. 500 текстов по 2000 словоупотреблений. • Мониторный корпус

  30. Основные понятия (лекция 1) • Требования к корпусу • Стандарты • Разметка

  31. Требование унификации: • многократное использование; • много пользователей; • совместимость с другими корпусами; • совместимость с другими лингвопроцессорами; • совместимость с общепринятыми научными теориями; • совместимость с общепринятыми классификациями; • возможность применения стандартных программных средств.

  32. Объекты стандартизации • Структура формата • Наполнение формата Метаданные Классификаторы Лингвистическая разметка • Кодировки

  33. Стандарты • Пример: In passing the door of that sanctum some time after, I caught the words -- 'She'll happen do better for him nor ony o' f grand ladies.' And again, 'If she ben't one o' th' handsomest, she's noan faa''l, and varry good-natured; and i' his een she's fair beauti- ful, onybody may see that.‘ 474 JANE EYRE 475

  34. Стандарты • Пример: Inpassingthedoorofthatsanctumsometimeafter, I caughtthewords-- 'She'llhappendobetterforhimnoronyo' fgrandladies.' Andagain, 'Ifsheben'toneo' th' handsomest, she'snoanfaa''l, andvarrygood-natured; andi' hiseenshe'sfairbeauti- ful, onybodymayseethat.‘ 474 JANE EYRE 475 • Пример: Inpassingthedoorofthatsanctumsometimeafter, I caughtthewords-- 'She'llhappendobetterforhimnoronyo' fgrandladies.' Andagain, 'Ifsheben'toneo' th' handsomest, she'snoanfaa''l, andvarrygood-natured; andi' hiseenshe'sfairbeauti- ful, onybodymayseethat.‘ 474 JANE EYRE 475

  35. Стандарты • В этой записи имеется ряд недостатков: • номера страниц и колонтитулы идут прямо в тексте (программам обработки трудно различать их); • нет разницы между одинарными кавычками и апострофами (проблемы с выделением прямой речи); • сохранение переносов, которые были в исходном тексте, (сложности для автоматического поиска); • буква с ударением в слове faál и длинное тире представлены специальными группами символов, которые не соответствуют стандарту (дополнительные проблемы с обработкой); • абзацы выделены только отступом, а знак возврата каретки, жестко задающий формат, имеется в конце каждой строки (если изменить размер шрифта, которым печатается текст, то переформатирование текста будет непростой задачей).

  36. Стандарты • In passing the door of that sanctum some time after, I caught the words &dash; • <p><q>She'll happen do better for him nor ony o' t' grand ladies.</q> And again, <q>If she ben't one o' th' handsomest, she's noan fa&agrave;l, and varry good-natured; and i' his een she's fair beautiful, onybody may see that.</q> <pb n='475'>

  37. Стандарты разметки • TEI – text encoding initiative • EAGLES-Expert Advisory Group on Language Engineering Standards • SGML - Standard Generalised Markup Language • XML (Extensible Markup Language) - язык разметки документов

  38. Другие международные проекты и стандарты • стандарт CES (Corpus Encoding Standard); • стандарт XCES (Corpus Encoding Standard for XML); • проект ISLE (International Standards for Language Engineering); • стандарт CDIF (Corpus Document Interchange Format, BNC).

  39. Группастандартов TEI длякорпусов(TEI P4, TEI P5) Схема описания документа: • библиографическое описание текста, • собственно метаописание текста и • "технологическое" описание: кодировка текста, история создания электронной версии и т.п.

  40. формальное описание текста Название Автор Год Размер ……… содержательное описание текста Жанр Стиль Целевая аудитория Время создания ……… СтандартText Encoding Initiative (TEI)

  41. TEI TEI – универсальное множество, из которого создатель корпуса может выбрать любое подмножество, релевантное для своей конкретной задачи.

  42. Примеры стандартных тегов TEI

  43. TEI

  44. Предусмотрены следующие тэги: 1. <creation> — информация о времени и месте создания текста; 2. <textClass> — классификация текста; 3. <textDesc> — описание текста; 4. <particDesc> — описание автора илиучастников акта коммуникации; 5. <settingDesc> — условия, в которых происходил акт коммуникации. Внутри каждого тэга – большое количество вложенных уточняющих тэгов. Кодирование метаданных в TEI

  45. Классификаторы:пример тематической классификации EAGLES (1) natsci естественные науки mathematics математика physics физика chemistry химия … appsci прикладные науки medicine медицина engineering техника и технология computing вычислительная техника military военное дело marine мореплавание … socsci общественные науки anthropology антропология language лингвистика, филология …

  46. Формальныеязыкиразметки • SGML (Standard Generalized Mark-up Language), • XML (Extensible Mark-up Language)

  47. Пример описания на языке XML описание слова 'лошади' будет записано следующим образом: <noun lemma="лошадь" number="singular" gender=“feminine" case="genitive"> лошади </noun> <w> лошади <ana lemma=“лошадь" feats="noun,sg,m,gen“/></w> или <w> lemma="лошадь" feats="NSM2----------">лошади</w>, где NSM2 обозначает the noun (N), Singular (S), masculine (M), Genitive (2)

  48. Разметка • Øметатекстовая разметка • Øразбиение текста на фрагменты • Øлемматизация • Øморфологическая разметка • Øсинтаксическая разметка • Øсемантическая разметка • Øфонетическая разметка другие типы разметки: • Øанафорическая • Øструктура дискурса • DRT (http://www.coli.uni-sb.de/~bos/doris/ )

  49. Метаразметка • Факторы: • 1)факторы, относящиеся к созданию текста автором; • 2)факторы, относящиеся к внешним признакам текста; • 3)факторы, относящиеся к целям создания текста и его влиянию на аудиторию. • 4)предметная область текста; • 5)стилистические особенности текста.

  50. Пример метаразметки: • <A BEAUMONT ELIZABETH> Author's name • <C E1> Sub-period • <O 1500-1570> Date of original • <M X> Date of manuscript • <K X> Contemporaneity of original and manuscript • <D ENGLISH> Dialect • <V PROSE> Verse or prose • <T LET PRIV> Text type • <F X> Language of foreign original • <W WRITTEN> Relationship to spoken language • <X FEMALE> Sex of author • <J INTERACTIVE> Interactive/non-interactive • <I INFORMAL> Formal/informal

More Related