1 / 59

Виды разметки

Виды разметки. Метаразметка Е.Ю. Калинина, АвтОбрЕЯ 2007 / 2008. Пример разметки. <teiHeader id="TRIF1" target="TRIFONOW/dom.txt" type="text" lang="ru"> <fileDesc> <titleStmt> <title>Дом на набережной</title><author>Юрий Трифонов</author> <extent type="w">45238</extent>

Download Presentation

Виды разметки

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Виды разметки Метаразметка Е.Ю. Калинина, АвтОбрЕЯ 2007/2008

  2. Пример разметки • <teiHeader id="TRIF1" target="TRIFONOW/dom.txt" type="text" lang="ru"> • <fileDesc> • <titleStmt> • <title>Дом на набережной</title><author>Юрий Трифонов</author> • <extent type="w">45238</extent> • <extent type="u">4</extent> • <extent type="s">4132</extent> • </titleStmt> • <sourceDesc> • <respStmt><resp>Файл из Библиотеки Мошкова</resp></respStmt> • <address>http://www.lib.ru/PROZA/TRIFONOW/dom.txt</address> • </sourceDesc> • </fileDesc>

  3. Максимы Лича (Geoffrey Leech) • 1. It should be possible to remove the annotation from an annotated corpus in order to revert to the raw corpus. • 2. It should be possible to extract the annotations by themselves from the text.

  4. Максимы Лича • 3. The annoatation scheme should be based on guidelines which are available to the end user. • 4. It should be made clear how and by whom the annotation was carried out.

  5. Максимы Лича • 5. The end user should be made aware that the corpus annotation is not infallible, but simply a potentially useful tool. • 6. Annotation schemes should be based as far as possible on widely agreed and theory-neutral principles.

  6. Максимы Лича: самое главное • 7. No annotation scheme has the a priori right to be considered as a standard.

  7. Метаразметка Метаданные – структурированные данные о данных: • основания для классификации текстов; • Служат для автоматического обнаружения и обработки данных.

  8. Экстралингвистическая разметка • "внешняя", "интеллектуальная" разметка библиографические характеристики типологические характеристики тематические характеристики социологические характеристики • "формальная" структурная разметка текст, раздел, глава, часть, абзац, предложение … • технико-технологическая разметка кодировка даты обработки исполнители источник электронной версии

  9. Внешняя разметка Нужна: • для выявления взаимосвязей в языке и изучения условий его существования; • для изучения отдельных подмножеств языка.

  10. Метаразметка • <teiHeader id="TRIF1" target="TRIFONOW/dom.txt" type="text" lang="ru"> • <fileDesc> • <titleStmt> • <title>Дом на набережной</title><author>Юрий Трифонов</author> • <extent type="w">45238</extent> • <extent type="u">4</extent> • <extent type="s">4132</extent> • </titleStmt> • <sourceDesc> • <respStmt><resp>Файл из Библиотеки Мошкова</resp></respStmt> • <address>http://www.lib.ru/PROZA/TRIFONOW/dom.txt</address> • </sourceDesc> • </fileDesc>

  11. Метаразметка • <person id="p1" role="interviewee" sex="f" age="mid"> • <birth date="1950-01-12"> • <date>12 Jan 1950</date> • <rs type="place">Shropshire, UK</rs> • </birth> • <firstLang>English</firstLang> • <langKnown>French</langKnown> • <residence>Long term resident of Hull</residence> • <education>University postgraduate</education> • <occupation>Unknown</occupation> • <socecStatus scheme="pep" code="b2"/> • </person>

  12. Метаразметка • <revisionDesc> • <change><date>02/01/2003</date> • <respStmt><name key="y">Петров</name> • <resp>Annotator</resp></respStmt> • <item> морфологическая неоднозначность разрешена </item> • </change> • <change><date>01/01/2003</date> • <respStmt><name key="y">Петров</name> • <resp>Annotator</resp></respStmt> • <item> Текст обработан морфологическим анализатором Dialing </item> • </change> • <change><date>01/01/2001</date> • <respStmt><name key="x">Иванов</name> • <resp>Encoder</resp></respStmt> • <item> Сканирование исходного текста с помощью OCR</item> • <equipment> HP Scanjet, FineReader </equipment> • </change> • </revisionDesc>

  13. Требование унификации: • многократное использование; • много пользователей; • совместимость с другими корпусами; • совместимость с другими лингвопроцессорами; • совместимость с общепринятыми научными теориями; • совместимость с общепринятыми классификациями; • возможность применения стандартных программных средств.

  14. Объекты стандартизации • Структура формата • Наполнение формата Метаданные Классификаторы Лингвистическая разметка • Кодировки • Оценка корпусов

  15. Международные проекты и стандарты • Проект TEI (Text Encoding Initiative); • рекомендацииEAGLES (Expert Advisory Group on Language Engineering Standards); • стандарт CES (Corpus Encoding Standard); • стандарт XCES (Corpus Encoding Standard for XML); • проект ISLE (International Standards for Language Engineering); • стандарт CDIF (Corpus Document Interchange Format, BNC).

  16. Группастандартов TEI длякорпусов(TEI P4, TEI P5) Схема описания документа: • библиографическое описание текста, • собственно метаописание текста и • "технологическое" описание: кодировка текста, история создания электронной версии и т.п.

  17. СтандартText Encoding Initiative (TEI) • формальное описание текста Название Автор Год Размер ……… • содержательное описание текста Жанр Стиль Целевая аудитория Время создания ………

  18. TEI TEI – универсальное множество, из которого создатель корпуса может выбрать любое подмножество, релевантное для своей конкретной задачи.

  19. Кодирование метаданных в TEI Предусмотрены следующие тэги: 1. <creation> — информация о времени и месте создания текста; 2. <textClass> — классификация текста; 3. <textDesc> — описание текста; 4. <particDesc> — описание автора илиучастников акта коммуникации; 5. <settingDesc> — условия, в которых происходил акт коммуникации. Внутри каждого тэга – большое количество вложенных уточняющих тэгов.

  20. Классификаторы:пример тематической классификации EAGLES (1) natsci естественные науки mathematics математика physics физика chemistry химия … appsci прикладные науки medicine медицина engineering техника и технология computing вычислительная техника military военное дело marine мореплавание … socsci общественные науки anthropology антропология language лингвистика, филология

  21. Классификаторы:пример тематической классификации EAGLES (2) religion религия (включая философию в БНК) politics политика inner внутренняя world внешняя … education образование commerce экономика finance финансы … life общество arts искусство literature литература architecture архитектура … leisure досуг reading чтение sports спорт travels путешествия

  22. Пример схемы кодировки (см. Шаров 2002) <taxonomy id="domain"> <bibl>Источники: БНКи EAGLES</bibl> <category id="natsci"><catDesc>Естественныенауки</catDesc> <category id="mathematics"><catDesc>Математика</catDesc></category> .................................... </taxonomy> <taxonomy id="written"> <category id="printed"><catDesc>печатныеиздания</catDesc> <category id="books"><catDesc>книгиипроч.</catDesc></category> ........................................... </taxonomy> <taxonomy id="spoken"> <category id="on location"><catDesc>местныйразговор</catDesc> <category id="telephone"><catDesc>телефон</catDesc> <category id="studio"><catDesc>студия</catDesc> </taxonomy> <taxonomy id="aims"> <category id="information"><catDesc>Справочнаяинформация</catDesc></category> <category id="discussion"><catDesc>Обсуждение</catDesc> ........................................... </taxonomy>

  23. Набор метаданных в Национальном корпусе русского языка Первый блок:ПАСПОРТ ТЕКСТА • автор текста: имя, пол, дата рождения (или примерный возраст); • название текста; • время и место создания текста (может указываться точно или приблизительно); • объем текста: для художественных произведений принято, что обычная длина рассказа – менее 5 тыс. слов; обычная длина повести– от 5до 15тыс. слов; обычная длина романа– более 15тыс. слов.

  24. Набор метаданных в «Национальном корпусе русского языка» Второй блок: параметры метаописания основных массивов текстов корпуса: • художественных текстов; • нехудожественных текстов; • Драматургии • Устной речи • поэзии

  25. Художественные тексты (в НКРЯ): • Жанр текста (включается также помета «нежанровая проза»): историко-приключенческая, криминальная, любовная литература, сатира и юмор, фантастика, и т.п.

  26. Художественные тексты (в НКРЯ): • Тип текста (при обозначении типа широко используется самоидентификация текста; список типов в принципе открытый и дается в окне поиска в алфавитном порядке): анекдот, боевик, детектив, повесть, притча, рассказ, роман, сказка, триллер, эпопея, эссе и т.п.

  27. Художественные тексты (в НКРЯ): • хронотоп текста приблизительное указание на место и время описываемых в тексте событий Реально предлагается следующее: древний Восток; Россия XVII в.; Россия XIX в.; Россия/СССР: советский период в целом; Россия, советский период– Германия 1920–1940-е годы; Россия/СССР– Европа 1960-1980-е годы; Россия/СССР: перестройка; Россия/СССР: советский и постсоветский период; Америка: современная жизнь; Израиль: современная жизнь; Средняя Азия: современная жизнь; ирреальный мир и др. Также может быть «хронотоп не определен».

  28. Нехудожественные тексты(в НКРЯ): • Сфера функционирования текста: (параметр призван отражать в первую очередь языковые особенности): бытовая, официально-деловая, производственно-техническая, публицистическая, учебно-научная, церковно-богословская.

  29. Нехудожественные тексты(в НКРЯ): • Тип текста: (при обозначении типа широко используется самоидентификация текста; список типов в принципе открытый и дается в окне поиска в алфавитном порядке; включается также помета «тип не определен»): автобиография, акт, дневник, договор, документ, закон, заметка, заявление, инструкция, информационное сообщение, кодекс, комментарий, листовка, обзор, объявление, отзыв, отчет, очерк, письмо, постановление, проповедь, путеводитель, резюме, реклама, рекомендация, рецензия, рецепт, сочинение, справочник, статья, учебник, характеристика, хроника, эссе, и т.п.

  30. Нехудожественные тексты(в НКРЯ): • «текст-стиль», при этом выделяются академический, научно-популярный, официально-деловой, нейтральный, сниженный, сниженный с элементами грубого просторечия и жаргона, архаизованный, индивидуально-авторский, диалектный и пр. (всего 21);

  31. Нехудожественные тексты(в НКРЯ): • 3. Тематика текста (в принципе, у одного текста тем может быть несколько; список открытый): бизнес, коммерция, экономика, финансы; война и вооруженные конфликты; дом и домашнее хозяйство; здоровье и медицина; зрелища и развлечения; искусство; криминал; наука (по разделам и отраслям); политика и общественная жизнь; право; производство; сельское хозяйство; спорт; природа; частная жизнь и т.п.

  32. Факторы, влияющие на язык текстов два класса факторов, влияющих на язык текстов: • внешние, внеязыковые факторы (E - external); • внутренние факторы (I- internal). ( См. Sinclair (1996). Preliminary recommendations on text typology. EAGLES Document EAG-TCWG-TTYP/P. http://www.ilc.pi.cnr.it/EAGLES96/texttyp/texttyp.html)

  33. Е-факторы • Е1 (origin) - факторы, относящиеся к созданию текста автором; • E2 (state) - факторы, относящиеся к внешним признакам текста (включая устную или письменную речь); • Е3 (aims) - факторы, относящиеся к причинам создания текста и его влиянию на аудиторию.

  34. I-факторы • I1 (topic) - предметная область текста; • I2 (style) - стилистические особенности (стиль, жанр).

  35. Внешние факторы • Е1 (параметры создания текста): время создания текста и возраст автора на этот момент • пол автора и регион происхождения автора. • Для региона важна грубая классификация на столичный (Москва и Санкт-Петербург), европейский, сибирский и южный, для возраста на детский, молодежный, взрослый и пожилой.

  36. Внешние факторы: • Е2 (внешние признаки текста) - четыре режима речи: • устная • письменная • письменная, предназначенная для произнесения вслух • электронная коммуникация

  37. Внешние факторы • Е2 (внешние признаки текста) • внешние признаки письменной речи: печатные издания, переписка • Внешние признаки устной речи: речь спонтанная, студийные записи, телефонные разговоры

  38. Внешние факторы • Е3 – параметры аудитории • размер • близость аудитории говорящему • ограничения на пол, возраст и уровень образования аудитории

  39. Внешние факторы • Е3 – цели создания текста • обсуждение (аргументация, полемика, изложение позиции и т.п.) • рекомендации (отчеты, предложения, законы и т.д.) • развлечение (сюда входят различные жанры художественной литературы, а также биографические и автобиографические тексты, дневники и мемуары) • обучение (в эту категорию входят как школьные или вузовские учебники, так и практические советы) • информация (в эту категорию входят только те тексты, целью которых является предоставление информации и которые не могут быть включены в другие категории, например, энциклопедии и справочные пособия).

  40. Внутренние факторы: стиль • академический • научно-популярный • официально-деловой • нейтральный • сниженный • сниженный с элементами грубого просторечия и жаргона • архаизованный • индивидуально-авторский • диалектный и пр. (всего 21)

  41. А.С. Пушкин. Капитанская дочка • Комендант расхаживал перед своим малочисленным строем. Близость опасности одушевляла старого воина бодростию необыкновенной. По степи, не в дальнемрасстоянии от крепости, разъезжали человек двадцать верхами. Они, казалося, казаки, но между ими находились и башкирцы, которых легко можно было распознать по их рысьим шапкам и по колчанам. Комендант обошел свое войско, говоря солдатам: "Ну, детушки, постоим сегодня за матушку государыню и докажем всему свету, что мы люди бравые и присяжные!" Солдаты громко изъявили усердие.

  42. М.Ю. Лермонтов. Герой нашего времени • Тут он начал щипать левый ус, повесил голову и призадумался. Мне страх хотелось вытянуть из него какую-нибудь историйку - желание, свойственное всем путешествующим и записывающим людям. Между тем чай поспел; я вытащил из чемодана два походных стаканчика, налил и поставил один перед ним. Он отхлебнул и сказал как будто про себя: "Да, бывало!" Это восклицание подало мне большие надежды. Я знаю, старые кавказцы любят поговорить, порассказать; им так редко это удается: другой лет пять стоит где-нибудь в захолустье с ротой, и целые пять лет ему никто не скажет "здравствуйте" (потому что фельдфебель говорит "здравия желаю"). А поболтать было бы о чем: кругом народ дикий, любопытный; каждый день опасность, случаи бывают чудные, и тут поневоле пожалеешь о том, что у нас так мало записывают.

  43. Н.В.Гоголь. Рим (отрывок) • Попробуй взглянуть на молнию, когда, раскроивши черные, как уголь, тучи, нестерпимо затрепещет она целым потопом блеска. Таковы очи у альбанки Аннунциаты. Всё напоминает в ней те античные времена, когда оживлялся мрамор и блистали скульптурные резцы. Густая смола волос тяжеловесной косою вознеслась в два кольца над головой и четырьмя длинными кудрями рассыпалась по шее. Как ни поворотит она сияющий снег своего лица -- образ ее весь отпечатлелся в сердце. Станет ли профилем -- благородством дивным дышит профиль, и мечется красота линий, каких не создавала кисть… Но чудеснее всего, когда глянет она прямо очами в очи, водрузивши хлад и замиранье в сердце.

  44. Н.В. Гоголь. Шинель • В это время, когда даже у занимающих высшие должности болит от морозу лоб и слезы выступают в глазах, бедные титулярные советники иногда бывают беззащитны. Все спасение состоит в том, чтобы в тощенькой шинелишке перебежать как можно скорее пять-шесть улиц и потом натопаться хорошенько ногами в швейцарской, пока не оттают таким образом все замерзнувшие на дороге способности и дарованья к должностным отправлениям.

  45. Л.Н. Толстой. Рубка леса • - тот самый бомбардир Антонов, который еще в 37-м году, втроем, оставшись при одном орудии, без прикрытия, отстреливался от сильного неприятеля и с двумя пулями в ляжке продолжал итти около орудия и заряжать его. "Давно бы уж ему быть фейерверкером, коли бы не карахтер его", говорили про него солдаты.

  46. Л.Н. Толстой. Рубка леса • Наконец, перейдя неглубокий, но чрезвычайно быстрый ручей, нас остановили, и в авангарде послышались отрывчатые винтовочные выстрелы. Звуки эти, как и всегда, особенно возбудительно подействовали на всех. Отряд как бы проснулся: в рядах послышались говор, движение и смех. Солдаты кто боролся с товарищем, кто перепрыгивал с ноги на ногу, кто жевал сухарь или, для препровождения времени, отбивал на караул и к ноге. Притом туман заметно начинал белеть на востоке, сырость становилась ощутительнее, и окружающие предметы постепенно выходили из мрака.

  47. Ф.М. Достоевский. Бесы • Это было в пятьдесят пятом году, весной, в мае месяце, именно после того как в Скворешниках получилось известие о кончине генерал-лейтенанта Ставрогина, старца легкомысленного…

  48. Ф.М. Достоевский. Бесы • Это было одно из тех идеальных русских существ, которых вдруг поразит какая-нибудь сильная идея и тут же разом точно придавит их собою, иногда даже навеки. Справиться с нею они никогда не в силах, а уверуют страстно, и вот вся жизнь их проходит потом как бы в последних корчах под свалившимся на них и на половину совсем уже раздавившим их камнем… • Не прочь мы были и от городских сплетен, при чем доходили иногда до строгих высоко-нравственных приговоров. Впадали и в общечеловеческое, строго рассуждали о будущей судьбе Европы и человечества; докторально предсказывали, что Франция после цезаризма разом ниспадет на степень второстепенного государства, и совершенно были уверены, что это ужасно скоро и легко может сделаться.

  49. А.П. Чехов. Скучная история • На свежего мальчика, приехавшего из провинции и воображающего, что храм науки в самом деле храм, такие ворота не могут произвести здорового впечатления. Вообще ветхость университетских построек, мрачность коридоров, копоть стен, недостаток света, унылый вид ступеней, вешалок и скамей в истории русского пессимизма занимают одно из первых мест на ряду причин предрасполагающих... Вот и наш сад. С тех пор, как я был студентом, он, кажется, не стал ни лучше, ни хуже. Я его не люблю. Было бы гораздо умнее, если бы вместо чахоточных лип, желтой акации и редкой, стриженой сирени росли тут высокие сосны и хорошие дубы. Студент, настроение которого в большинстве создается обстановкой, на каждом шагу, там, где он учится, должен видеть перед собою только высокое, сильное и изящное... Храни его бог от тощих деревьев, разбитых окон, серых стен и дверей, обитых рваной клеенкой.

  50. А.П. Чехов. Остров Сахалин • Он рассказывает, что на Сахалине за все 22 года он ни разу не был сечен и ни разу не сидел в карцере. - Потому что посылают лес пилить - иду, дают вот эту палку в руки -беру, велят печи в канцерярии топить - топлю. Повиноваться надо. Жизнь, нечего бога гневить, хорошая. Слава тебе господи! Летом он живет в юрте около перевоза. В юрте у него лохмотья, каравай хлеба, ружье и спертый, кислый запах. На вопрос, для чего ему ружье, говорит- от воров и куликов стрелять - и смеется. Ружье испорчено и стоит тут только для виду. Зимою превращается он в дровотаска и живет в конторе на пристани.

More Related