230 likes | 457 Views
Разработка Инструментария для Семантической Разметки Текста. О.В. Мудрая, Б.В. Бабич, S. Piao, P. Rayson, A. Wilson Корпусная лингвистика 2006 Санкт-Петербург. Содержание. Важность лексическо-семантических ресурсов и семантической аннотации в автоматическом анализе текста
E N D
Разработка Инструментария для Семантической Разметки Текста О.В. Мудрая, Б.В. Бабич, S. Piao, P. Rayson, A. Wilson Корпусная лингвистика 2006 Санкт-Петербург
Содержание • Важность лексическо-семантических ресурсов и семантической аннотации в автоматическом анализе текста • LancasterUCRELsemanticanalysissystem–система семантической разметки текста USAS • Русский семантический теггер (РСТ) • Оценка лексического покрытия РСТ • Применения РСТ
Роль лексическо-семантических ресурсов • В корпусной лингвистике. • В автоматической обработке естествен-ного языка. • В автоматическом анализе текста: семантическая аннотация / анализ по семантическим полям – в качестве дополнительной процедуры снятия лексической омонимии и многозначности для разграничения различных значений слова.
Система семантической разметки текста USAS • USAS = UCRELsemanticanalysissystem • UCREL = [Lancaster] University Centre for Computer Corpus Research on Language • Разрабатывалась в течение последних 20-ти лет в университете г. Ланкастер, Вели-кобритания. • Доступна для научных исследований в качестве составной части системы Wmatrixhttp://www.comp.lancs.ac.uk/ucrel/wmatrix/.
Семантический теггер USAS:Система семантической разметки текста • В основе -- система классификации лексики в соответствии с Лонгманским лексиконом современного английского языка Тома МакАртура. • Лонгманский лексикон МакАртура: • 15 тыс. слов, относящихся к основной лексике • сгрупированны по 14 семантическим полям / темам, которые подразделены на 127 групп и 2441 подгруппу. McArthur T., Longman Lexicon of Contemporary English. London, 1981.
Система семантической разметки текста USAS • Первоначально разрабатывалась для анализа расшифровок интервью на английском языке (Wilson and Rayson, 1993). • Охватывает 21 семантическую категорию, обозначенную заглавными буквами латинского алфавита, и 232 пронумерованные (до трех уровней) подкатегории. • Полная семантическая разметка USAS на http://www.comp.lancs.ac.uk/ucrel/usas/.
Основныесемантические категории USAS
Пример категории с подкатегориями T Time T1 Time T1.1 Time: General T1.1.1 Time: General: Past T1.1.2 Time: General: Present; simultaneous T1.1.3 Time: General: Future T1.2 Time: Momentary T1.3 Time: Period T2 Time: Beginning and ending T3 Time: Old, new and young; age T4 Time: Early/late
Лексикон USAS • Английский лексиконсодержит около55 тыс.словоформ and почти19 тыс.многословных выражений (МСВ), многие из которых являют-ся шаблонами, способными распознавать варианты лексем в составе МСВ. • Клаcсифицируетсянабором широко опреде-ленных категорий семантичексих полей, организованных в структуру, подобную тезаурусу. • Используя номенклатуру семантических полей, отображает слова и шаблоны МСВна их потенциальные семантические категории. • Лексическое покрытие Английского семанти-ческого теггера (АСТ) на BNC –98.49%(Piao et al., 2004).
Дальнейшая разработка и усовершенствование USAS • Увеличение лексических ресурсов. • Включение новых языков: для задач проектов Benedict(Löfberget al, 2005)и ASSIST(Sharoffet al, 2006) АСТ был перенесен на финский и русский языки. • Снятие омонимии -- в соответствии с употреблением слов и МСВ в контексте(Rayson et al, 2004).
Русский семантический теггер (РСТ) • Разрабатывается в ходе работы над проектом ASSIST–Automated semantic assistance for translators. • Совместными усилиями исследователей из двух британских университетов: Ланкастерского и Лидского. • Работа поддержана грантами фонда UK-EPSRC–EP/C004574/1 для Ланкастерского Университета и EP/C005902 для Лидского Университета.
РСТ В основе -- семантические категории USAS, которые совместимы с семантической категоризацией объектов и явлений в русском языке, например: poor JJ I1.1- A5.1- N5- E4.1- X9.1- бедный A I1.1- A6.3- N5- O4.2- E4.1- I1.1- = Деньги: недостаток A5.1- = Оценка: плохо N5- = Количество: мало E4.1- = Несчастный X9.1- = Способность, интеллект: плохие A6.3- = Сравнение: мало разнообразия O4.2- = Суждение о внешности: плохо
Особые метки • +/- для обозначения положительных / отрицательных аспектов значений • m, fи n = мужской, женский и неопреде-ленный пол
Многозначные лексические единицы • Отображаются во множественных семанти-ческих категориях. Также указывается грам-матическая категория части речи с целью уменьшения неоднозначности. • Семантические метки расставляются в порядке употребительности, т.е. метка, соответствующая наиболее употребитель-ному значению, проставляется первой в списке значений: • для английского языка – на основе Collins COBUILD on CD-ROM 2001 Lingea Lexicon, ver. 3.1, и Encarta World English Dictionary 1999 Microsoft Corporation. • для русского языка – ABBYY Lingvo 10 English-Russian Electronic Dictionary 2004и ГРАМОТА.РУhttp://www.gramota.ru/.
Гибридные семантические категории Когда лексемы одновременно принадлежат к двум или более семантическим категори-ям, образуя гибридную категорию, что обозначается с помощью косой черты: rebel VV0 G1.2/A6.1- S8- A6.1- waiter NN1 I3.1/F1/S2.2m адмиралS G3/S7.1+/S2mf L2mf больничный A B3/H1 Q1.2/B2-
Модификации в архитектуре РСТ(в отличие от архитектуры АСТ) • mystem(Segalovich, 2003) в РСТ = POStaggerCLAWS(Garside and Smith, 1997)в АСТ; • кодировка Cp1251 → UTF8; • в словнике однословных лексических единиц РСТ – только леммы, в отличие от словоформ в лексиконе АСТ; • выделение имен собственных в особый подлексикон однословных лексических единиц РСТ из-за того, что mystem не различает имена собственные и нарица-тельные.
Рабочий процесс РСТ: необработанный русский текст ↓ морфологизатор mystem ↓ русский семантический компонент (однословные лексические единицы / имена собственные + МСВ) ↓ семантическая аннотация
Разработка словника РСТ • Путем эксплуатации словарей и корпусов -- в первую очередь, легкодоступных материалов: списки имен собственных. • Разработка началась с включения 3000 наиболее частотных лемм из Национального корпуса русского языка: http://ruscorpora.ru/, а также http://corpus.leeds.ac.uk/list.html. • Пополнение тематическими списками с помощью онлайновых ресурсов: http://www.terms.ru/. • Дальнейшее расширение посредством загрузки в РСТ текстов из различных источников и последующей семантической классификации ненайденных слов.
Состав словника РСТ На данный момент в словнике РСТ: • 16 103 леммы, из которых 11 671 – имена нарицательные и 4432 – имена собственные • 713 МСВ – многие являются шаблонами (с возможными словами-вставками), способны-ми распознавать варианты лексем в составе МСВ: без_* видим*_* {на/то} причин*_* X2.5- A2.2- в_* {сам*} разгар*_* X5.2+ N5.1+ Цель – 30 тыс. лемм и около 9 тыс. МСВ к концу марта 2007.
Лексическое покрытие словника РСТ • Оценка произведена на специально созданном для проекта ASSISTРусском новостном корпу-се (газеты Труд, Известия и Страна.Ru, опубликованные в 2002-2004 гг.) в 70 млн. слов. • Корпус пролемматизирован (mystem). Пунктуация включена. Омонимия частично снята через выбор наиболее частотной леммы для данной словоформы, представленной в размеченной вручную части Национального корпуса русского языка в 1,6 млн. слов. • Результат – 79%. Цель – 90%. • Частотные слова, не представленные в словнике РСТ, принадлежат к области совре-менных политических и общественных событий → словник РСТ будет расширен за счет таких слов.
Пользовательский интерфейсРСТhttp://148.88.224.86:8080/nlp_tools/rus_sem_tagger • Веб-интерфейс включает 3 веб-страницы. • Первая страница -- имя и пароль доступа. • Основная страница -- введение текста в текстовую область для последующей семан-тической разметки. Результат выводится в таблицу, содержащую код части речи и семантический тег / теги для каждого слова в исходном тексте. Члены МСВ обозначаются в специальной колонке. • Третья страница -- получение лексических вхождений для заданного семантического тега, с возможностью выбора между лексиконами однословных лексических единиц и МСВ.
Применения РСТ • Компьютерный семантический анализ русского текста. • Компьютерный контент-анализ – статистичес-кий анализ семантических признаков текстов посредством группировки слов и словосочета-ний по категориям семантических полей и определения частотности слов и семантичес-ких тегов в текстах. • Разработка автоматизированных средств для переводчиков: семантическая аннотация рус-ского текста с целью нахождения в сравнимых корпусах непрямых переводных эквивалентов фраз, составляющих трудность при переводе. Поиск осуществляется через установление соответствий между похожими описаниями ситуаций, описанных в терминах семантичес-ких тегов.