slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Разработка Инструментария для Семантической Разметки Текста PowerPoint Presentation
Download Presentation
Разработка Инструментария для Семантической Разметки Текста

Loading in 2 Seconds...

play fullscreen
1 / 23

Разработка Инструментария для Семантической Разметки Текста - PowerPoint PPT Presentation


  • 185 Views
  • Uploaded on

Разработка Инструментария для Семантической Разметки Текста. О.В. Мудрая, Б.В. Бабич, S. Piao, P. Rayson, A. Wilson Корпусная лингвистика 2006 Санкт-Петербург. Содержание. Важность лексическо-семантических ресурсов и семантической аннотации в автоматическом анализе текста

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Разработка Инструментария для Семантической Разметки Текста' - wirt


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1
Разработка Инструментария для Семантической Разметки Текста

О.В. Мудрая, Б.В. Бабич,

S. Piao, P. Rayson, A. Wilson

Корпусная лингвистика 2006

Санкт-Петербург

slide2
Содержание
  • Важность лексическо-семантических ресурсов и семантической аннотации в автоматическом анализе текста
  • LancasterUCRELsemanticanalysissystem–система семантической разметки текста USAS
  • Русский семантический теггер (РСТ)
  • Оценка лексического покрытия РСТ
  • Применения РСТ
slide3
Роль лексическо-семантических ресурсов
  • В корпусной лингвистике.
  • В автоматической обработке естествен-ного языка.
  • В автоматическом анализе текста: семантическая аннотация / анализ по семантическим полям – в качестве дополнительной процедуры снятия лексической омонимии и многозначности для разграничения различных значений слова.
slide4
Система семантической разметки текста USAS
  • USAS = UCRELsemanticanalysissystem
  • UCREL = [Lancaster] University Centre for Computer Corpus Research on Language
  • Разрабатывалась в течение последних 20-ти лет в университете г. Ланкастер, Вели-кобритания.
  • Доступна для научных исследований в качестве составной части системы Wmatrixhttp://www.comp.lancs.ac.uk/ucrel/wmatrix/.
slide5
Семантический теггер USAS:Система семантической разметки текста
  • В основе -- система классификации лексики в соответствии с Лонгманским лексиконом современного английского языка Тома МакАртура.
  • Лонгманский лексикон МакАртура:
  • 15 тыс. слов, относящихся к основной лексике
  • сгрупированны по 14 семантическим полям / темам, которые подразделены на 127 групп и 2441 подгруппу.

McArthur T., Longman Lexicon of Contemporary English. London, 1981.

slide6
Система семантической разметки текста USAS
  • Первоначально разрабатывалась для анализа расшифровок интервью на английском языке (Wilson and Rayson, 1993).
  • Охватывает 21 семантическую категорию, обозначенную заглавными буквами латинского алфавита, и 232 пронумерованные (до трех уровней) подкатегории.
  • Полная семантическая разметка USAS на http://www.comp.lancs.ac.uk/ucrel/usas/.
slide8
Пример категории с подкатегориями

T Time

T1 Time

T1.1 Time: General

T1.1.1 Time: General: Past

T1.1.2 Time: General: Present; simultaneous

T1.1.3 Time: General: Future

T1.2 Time: Momentary

T1.3 Time: Period

T2 Time: Beginning and ending

T3 Time: Old, new and young; age

T4 Time: Early/late

slide9
Лексикон USAS
  • Английский лексиконсодержит около55 тыс.словоформ and почти19 тыс.многословных выражений (МСВ), многие из которых являют-ся шаблонами, способными распознавать варианты лексем в составе МСВ.
  • Клаcсифицируетсянабором широко опреде-ленных категорий семантичексих полей, организованных в структуру, подобную тезаурусу.
  • Используя номенклатуру семантических полей, отображает слова и шаблоны МСВна их потенциальные семантические категории.
  • Лексическое покрытие Английского семанти-ческого теггера (АСТ) на BNC –98.49%(Piao et al., 2004).
slide10
Дальнейшая разработка и усовершенствование USAS
  • Увеличение лексических ресурсов.
  • Включение новых языков: для задач проектов Benedict(Löfberget al, 2005)и ASSIST(Sharoffet al, 2006) АСТ был перенесен на финский и русский языки.
  • Снятие омонимии -- в соответствии с употреблением слов и МСВ в контексте(Rayson et al, 2004).
slide11
Русский семантический теггер (РСТ)
  • Разрабатывается в ходе работы над проектом ASSIST–Automated semantic assistance for translators.
  • Совместными усилиями исследователей из двух британских университетов: Ланкастерского и Лидского.
  • Работа поддержана грантами фонда UK-EPSRC–EP/C004574/1 для Ланкастерского Университета и EP/C005902 для Лидского Университета.
slide12
РСТ

В основе -- семантические категории USAS, которые совместимы с семантической категоризацией объектов и явлений в русском языке, например:

poor JJ I1.1- A5.1- N5- E4.1- X9.1-

бедный A I1.1- A6.3- N5- O4.2- E4.1-

I1.1- = Деньги: недостаток

A5.1- = Оценка: плохо

N5- = Количество: мало

E4.1- = Несчастный

X9.1- = Способность, интеллект: плохие

A6.3- = Сравнение: мало разнообразия

O4.2- = Суждение о внешности: плохо

slide13
Особые метки
  • +/- для обозначения положительных / отрицательных аспектов значений
  • m, fи n = мужской, женский и неопреде-ленный пол
slide14
Многозначные лексические единицы
  • Отображаются во множественных семанти-ческих категориях. Также указывается грам-матическая категория части речи с целью уменьшения неоднозначности.
  • Семантические метки расставляются в порядке употребительности, т.е. метка, соответствующая наиболее употребитель-ному значению, проставляется первой в списке значений:
  • для английского языка – на основе Collins COBUILD on CD-ROM 2001 Lingea Lexicon, ver. 3.1, и Encarta World English Dictionary 1999 Microsoft Corporation.
  • для русского языка – ABBYY Lingvo 10 English-Russian Electronic Dictionary 2004и ГРАМОТА.РУhttp://www.gramota.ru/.
slide15
Гибридные семантические категории

Когда лексемы одновременно принадлежат к двум или более семантическим категори-ям, образуя гибридную категорию, что обозначается с помощью косой черты:

rebel VV0 G1.2/A6.1- S8- A6.1-

waiter NN1 I3.1/F1/S2.2m

адмиралS G3/S7.1+/S2mf L2mf

больничный A B3/H1 Q1.2/B2-

slide16
Модификации в архитектуре РСТ(в отличие от архитектуры АСТ)
  • mystem(Segalovich, 2003) в РСТ = POStaggerCLAWS(Garside and Smith, 1997)в АСТ;
  • кодировка Cp1251 → UTF8;
  • в словнике однословных лексических единиц РСТ – только леммы, в отличие от словоформ в лексиконе АСТ;
  • выделение имен собственных в особый подлексикон однословных лексических единиц РСТ из-за того, что mystem не различает имена собственные и нарица-тельные.
slide17
Рабочий процесс РСТ:

необработанный русский текст

морфологизатор mystem

русский семантический компонент (однословные лексические единицы / имена собственные + МСВ)

семантическая аннотация

slide18
Разработка словника РСТ
  • Путем эксплуатации словарей и корпусов -- в первую очередь, легкодоступных материалов: списки имен собственных.
  • Разработка началась с включения 3000 наиболее частотных лемм из Национального корпуса русского языка: http://ruscorpora.ru/, а также http://corpus.leeds.ac.uk/list.html.
  • Пополнение тематическими списками с помощью онлайновых ресурсов: http://www.terms.ru/.
  • Дальнейшее расширение посредством загрузки в РСТ текстов из различных источников и последующей семантической классификации ненайденных слов.
slide19
Состав словника РСТ

На данный момент в словнике РСТ:

  • 16 103 леммы, из которых 11 671 – имена нарицательные и 4432 – имена собственные
  • 713 МСВ – многие являются шаблонами (с возможными словами-вставками), способны-ми распознавать варианты лексем в составе МСВ:

без_* видим*_* {на/то} причин*_* X2.5- A2.2-

в_* {сам*} разгар*_* X5.2+ N5.1+

Цель – 30 тыс. лемм и около 9 тыс. МСВ к концу марта 2007.

slide20
Лексическое покрытие словника РСТ
  • Оценка произведена на специально созданном для проекта ASSISTРусском новостном корпу-се (газеты Труд, Известия и Страна.Ru, опубликованные в 2002-2004 гг.) в 70 млн. слов.
  • Корпус пролемматизирован (mystem). Пунктуация включена. Омонимия частично снята через выбор наиболее частотной леммы для данной словоформы, представленной в размеченной вручную части Национального корпуса русского языка в 1,6 млн. слов.
  • Результат – 79%. Цель – 90%.
  • Частотные слова, не представленные в словнике РСТ, принадлежат к области совре-менных политических и общественных событий → словник РСТ будет расширен за счет таких слов.
http 148 88 224 86 8080 nlp tools rus sem tagger
Пользовательский интерфейсРСТhttp://148.88.224.86:8080/nlp_tools/rus_sem_tagger
  • Веб-интерфейс включает 3 веб-страницы.
  • Первая страница -- имя и пароль доступа.
  • Основная страница -- введение текста в текстовую область для последующей семан-тической разметки. Результат выводится в таблицу, содержащую код части речи и семантический тег / теги для каждого слова в исходном тексте. Члены МСВ обозначаются в специальной колонке.
  • Третья страница -- получение лексических вхождений для заданного семантического тега, с возможностью выбора между лексиконами однословных лексических единиц и МСВ.
slide23
Применения РСТ
  • Компьютерный семантический анализ русского текста.
  • Компьютерный контент-анализ – статистичес-кий анализ семантических признаков текстов посредством группировки слов и словосочета-ний по категориям семантических полей и определения частотности слов и семантичес-ких тегов в текстах.
  • Разработка автоматизированных средств для переводчиков: семантическая аннотация рус-ского текста с целью нахождения в сравнимых корпусах непрямых переводных эквивалентов фраз, составляющих трудность при переводе. Поиск осуществляется через установление соответствий между похожими описаниями ситуаций, описанных в терминах семантичес-ких тегов.