250 likes | 478 Views
Семантическая структура пропозиции при извлечении фактов из текстов на русском языке. СПбГУ: И. В. Азарова (azic@bsr.spb.ru) ООО «Идеограф»: В. Л. Иванов ( artifex.i @gmail.com ) Е. А. Овчинникова, ( e.ovchinnikova@gmail.com ). Система анализа текста Идеограф. Платформа ИДЕОЛОГ (1).
E N D
Семантическая структура пропозиции при извлечении фактов из текстов на русском языке СПбГУ:И. В. Азарова (azic@bsr.spb.ru)ООО «Идеограф»:В. Л.Иванов (artifex.i@gmail.com)Е. А. Овчинникова, (e.ovchinnikova@gmail.com)
ПлатформаИДЕОЛОГ (1) Базовые свойства • Машина логического вывода • Решетка типов Дополнительные свойства • Поддержка подключаемых грамматик • Поддержка больших лексиконов • Поддержка встроенных предикатов • Chart parsing
Грамматический анализ AGFL Базовые свойства • Система продукций (контекстно-свободная грамматика) NP Noun head Noun daughter NP Adj daughter Noun head • Продукции на уровне категорий (координация значений категорий задание согласования, управления и примыкания) NP (Case) Noun head(Case) Noun daughter(gen) NP (Case) Adj daughter(Case) Noun head (Case) Дополнительные свойства • Система трансдукции (форматирование результатов)
Лексический анализ:RussNet(1) Базовые свойства RussNet • компьютерный тезаурус wordnet-типа • элементарная единица - синсет (набор синонимов) • объединение синсетов в семантические деревья • рамки валентностей для синсетов (устойчивые контекстные маркеры) Дополнительные свойства • ассоциативные семантические отношения между синсетами одной части речи (антонимия, меронимия, каузация, пресуппозиция … ) • отношения синонимии и антонимии между синсетами разных частей речи • отношения деривационной синонимии и антонимии между словообразовательными дериватами аддитивного типа
Лексический анализ:RussNet(2) Примеры синсета {знакомый1, известный1} : 'встречавшийся прежде‘ Мне хорошо <знакомы> эти слова "о моральном вреде системе". Нам хорошо <знакомы> свадебные или обручальные кольца.. Они уже <знакомы> с азами общей культуры Но рядом с меню висело уже <знакомое> мне объявление: {знакомый2} : 'состоящий взнакомстве с кем-либо' Мы с тобой <знакомы> двадцать лет. Cемья Вит Карр <знакома> с Берковицем...
Лексический анализ:RussNet(3) Семантические деревья {человек}{«артефакт»}{группа} Группировки деревьев «одушевленные» = «человек» + «животные» «предмет» = «естественный объект» + «артефакт» + … «люди» = «человек» + «группа»
Лексический анализ:RussNet(4) Семантические связи синсетов (Глаголы) (Существительные) {сделать} НСВ {создавать}{создать} der_transposition_action der_agent{создание} {создатель} Окрестность синсета –все семантические связи данной вершины дерева/сети
Лексический анализ:RussNet(5) Синсет RussNet в xml-формате <SYNSET> <ID>RUS-nЧЕЛОВЕК.42.лицо</ID> <POS>n</POS> <DEF>Член коллектива людей</DEF> <SYNONYM> <LITERAL>лицо <SENSE>2</SENSE> <morph_data ANIM="anm"/> <LNOTE>neut</LNOTE> </LITERAL> </SYNONYM> <SYNONYM> <LITERAL>человек <SENSE>1</SENSE> <LNOTE>neut</LNOTE> </LITERAL> </SYNONYM> <SYNONYM> <LITERAL>индивидуум<SENSE>1</SENSE> <LNOTE>liter</LNOTE> </LITERAL> </SYNONYM> <ILR>RUS-nЛЮДИ.34.общество<TYPE>holo_member</TYPE></ILR> <ILR>RUS-nЛЮДИ.25.народ<TYPE>holo_member</TYPE></ILR> </SYNSET>
Рамки валентности (1) Субъектная валентность для синсета {знакомый1, известный1} • Синтаксическое оформление валентной позиции Pronoun(dat)или Noun (dat) • Семантическое оформление валентной позиции дерево ЧЕЛОВЕК • Ролевое оформление валентной позиции СУБЪЕКТ • Обязательность/факультативность валентной позиции (частотность появления позиции в контекстах корпуса текстов) факультативна (31%)
Рамки валентности (2) Объектная валентность для синсета {знакомый2} • Синтаксическое оформление валентной позиции Prep=«с»+ Pronoun (abl)или Noun (abl) • Семантическое оформление валентной позиции дерево ЧЕЛОВЕК • Ролевое оформление валентной позиции ОБЪЕКТ • Обязательность/факультативность валентной факультативна (46%)
Рамки валентности(3) Пример рамки валентностей в xml-формате <VALENCE_FRAME> <VALENCE active="yes" obligatory="yes" main_segment="verb_phr" val_type="object1" val_seg="terminal_noun"> <morph_data CASE="acc" place="preposition" /> <sem_data TYPE="top" ID="RUS-nПРЕДМЕТ"/> </VALENCE> <VALENCE active="yes" obligatory="no" main_segment="verb_phr" val_type="subject"val_seg="terminal_noun"> <morph_data CASE="nom" place="postposition"/> <sem_data TYPE="top" ID="RUS-nЧЕЛОВЕК"/> </VALENCE> </VALENCE_FRAME>
Разрешение неоднозначности Исходный текст:Я был знаком с тобой… Синтаксическая интерпретация 1: ((Я) (знакомый) ((с) (ты))) Синтаксическая интерпретация 2: ((Я) (знак) ((с) (ты))) Лексическая интерпретация 1-1:{знакомый1} Лексическая интерпретация 1-2:{знакомый2} … Лексическая интерпретация 2-1:{знак1} Лексическая интерпретация 2-2:{знак2} Лексическая интерпретация 2-3:{знак3} Верифицированный вариант 1: ((Я) (знакомый) ((с) (ты))) + {знакомый2}
Синтаксическая семантика (1) Базовые свойства • Базовая единица –признаковая структура пропозиции • Ядро пропозиции – предикат + субъектно-объектные позиции • временные и причинно-следственные отношения между пропозициями Дополнительные свойства • Разные типы объектов пропозиции отождествляются в рамках схемы объектов семантического дерева RussNet • Периферия пропозиции – качественно-количественная характеристика предиката, субъекта и объектов
Синтаксическая семантика (2) Текст:После нашего приезда в Вену я отправился на заранее определенное место встречи. Структура пропозиций: phrase [ SEM proposition [ ID id.приехать SUBJECT X = object [ID id.человек1] OBJECT3 object [ID id.Вена] TIME T1 ] ], phrase [ SEM proposition [ ID id.отправиться SUBJECT Y = object [ID id.человек1] PLACE Z = object [ID id.место] TIME T2] ], phrase [ SEM proposition [ ID id.встречать PLACE Z] ], phrase [ SEM proposition [ ID id.определить OBJECT1 Z TIME T3 ] ], before(T1, T2), before(T3, T2).
Синтаксическая семантика (3) Синтаксическое правило грамматики NP (Case, …) Noun head(Case, …) Noun daughter(gen, …) Синтактико-семантические правила 1. Пример конструкции: получение прибыли, строительство дома Noun headимеет в окрестности связьder_transposition_action Noun daughterвходит к широкую группировку деревьев «сущность» Семантическая интерпретация: «свернутая» пропозиция, ядром которой является глагольный синсет, связанный отношением «der_transposition_action», Noun daughter– объект пропозиции. [HEAD_DTR noun_phrase[ HEAD noun [CASE Case]SEM [ID Id1] ] NONHEAD_DTRS <noun_phrase[HEAD noun[CASE gen]SEM X=[ID Id2]]> SEM proposition[ ID Id OBJECT1 X ] ]=> entity_abstract(Id2), der_transposition_action(Id1,Id).
Синтаксическая семантика (4) • Пример конструкции: создатель традиции, проповедник реинкарнации Noun headимеет в окрестности связьder_agent Noun daughterвходит к широкую группировку деревьев «сущность» Семантическая интерпретация: «свернутая» пропозиция, ядром которой является глагольный синсет, связанный отношением «der_agent», Noun daughter– объект пропозиции, субъект действия – референт группы. [HEAD_DTR noun_phrase[ HEAD noun [CASE Case]SEM [ID Id1] ] NONHEAD_DTRS <noun_phrase[HEAD noun[CASE gen]SEM X=[ID Id2]]> SEM proposition [ ID Id SUBJECT ref OBJECT1 X ] ] => entity_abstract(Id2), der_agent(Id1, Id).
Ссылки • сайт проекта ИДЕОГРАФ (+RussNet Online): http://www.ideograph.ru • сайт грамматики AGFL: http://www.phil.pu.ru/depts/12/AGFL/rus/ • сайт тезауруса RussNet: http://www.phil.pu.ru/depts/12/RN/