1 / 24

Семантическая структура пропозиции при извлечении фактов из текстов на русском языке

Семантическая структура пропозиции при извлечении фактов из текстов на русском языке. СПбГУ: И. В. Азарова (azic@bsr.spb.ru) ООО «Идеограф»: В. Л. Иванов ( artifex.i @gmail.com ) Е. А. Овчинникова, ( e.ovchinnikova@gmail.com ). Система анализа текста Идеограф. Платформа ИДЕОЛОГ (1).

eryk
Download Presentation

Семантическая структура пропозиции при извлечении фактов из текстов на русском языке

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Семантическая структура пропозиции при извлечении фактов из текстов на русском языке СПбГУ:И. В. Азарова (azic@bsr.spb.ru)ООО «Идеограф»:В. Л.Иванов (artifex.i@gmail.com)Е. А. Овчинникова, (e.ovchinnikova@gmail.com)

  2. Система анализа текста Идеограф

  3. ПлатформаИДЕОЛОГ (1) Базовые свойства • Машина логического вывода • Решетка типов Дополнительные свойства • Поддержка подключаемых грамматик • Поддержка больших лексиконов • Поддержка встроенных предикатов • Chart parsing

  4. ПлатформаИДЕОЛОГ (2)

  5. Грамматический анализ AGFL Базовые свойства • Система продукций (контекстно-свободная грамматика) NP  Noun head Noun daughter NP  Adj daughter Noun head • Продукции на уровне категорий (координация значений категорий задание согласования, управления и примыкания) NP (Case)  Noun head(Case) Noun daughter(gen) NP (Case)  Adj daughter(Case) Noun head (Case) Дополнительные свойства • Система трансдукции (форматирование результатов)

  6. RUS4IR: Морфология + Синтаксис (1)

  7. RUS4IR: Морфология + Синтаксис (2)

  8. RUS4IR: Морфология + Синтаксис (1)

  9. RUS4IR: Морфология + Синтаксис (3)

  10. Лексический анализ:RussNet(1) Базовые свойства RussNet • компьютерный тезаурус wordnet-типа • элементарная единица - синсет (набор синонимов) • объединение синсетов в семантические деревья • рамки валентностей для синсетов (устойчивые контекстные маркеры) Дополнительные свойства • ассоциативные семантические отношения между синсетами одной части речи (антонимия, меронимия, каузация, пресуппозиция … ) • отношения синонимии и антонимии между синсетами разных частей речи • отношения деривационной синонимии и антонимии между словообразовательными дериватами аддитивного типа

  11. Лексический анализ:RussNet(2) Примеры синсета {знакомый1, известный1} : 'встречавшийся прежде‘ Мне хорошо <знакомы> эти слова "о моральном вреде системе". Нам хорошо <знакомы> свадебные или обручальные кольца.. Они уже <знакомы> с азами общей культуры Но рядом с меню висело уже <знакомое> мне объявление: {знакомый2} : 'состоящий взнакомстве с кем-либо' Мы с тобой <знакомы> двадцать лет. Cемья Вит Карр <знакома> с Берковицем...

  12. Лексический анализ:RussNet(3) Семантические деревья {человек}{«артефакт»}{группа} Группировки деревьев «одушевленные» = «человек» + «животные» «предмет» = «естественный объект» + «артефакт» + … «люди» = «человек» + «группа»

  13. Лексический анализ:RussNet(4) Семантические связи синсетов (Глаголы) (Существительные) {сделать} НСВ {создавать}{создать} der_transposition_action der_agent{создание} {создатель} Окрестность синсета –все семантические связи данной вершины дерева/сети

  14. Лексический анализ:RussNet(5) Синсет RussNet в xml-формате <SYNSET> <ID>RUS-nЧЕЛОВЕК.42.лицо</ID> <POS>n</POS> <DEF>Член коллектива людей</DEF> <SYNONYM> <LITERAL>лицо <SENSE>2</SENSE> <morph_data ANIM="anm"/> <LNOTE>neut</LNOTE> </LITERAL> </SYNONYM> <SYNONYM> <LITERAL>человек <SENSE>1</SENSE> <LNOTE>neut</LNOTE> </LITERAL> </SYNONYM> <SYNONYM> <LITERAL>индивидуум<SENSE>1</SENSE> <LNOTE>liter</LNOTE> </LITERAL> </SYNONYM> <ILR>RUS-nЛЮДИ.34.общество<TYPE>holo_member</TYPE></ILR> <ILR>RUS-nЛЮДИ.25.народ<TYPE>holo_member</TYPE></ILR> </SYNSET>

  15. Рамки валентности (1) Субъектная валентность для синсета {знакомый1, известный1} • Синтаксическое оформление валентной позиции Pronoun(dat)или Noun (dat) • Семантическое оформление валентной позиции дерево ЧЕЛОВЕК • Ролевое оформление валентной позиции СУБЪЕКТ • Обязательность/факультативность валентной позиции (частотность появления позиции в контекстах корпуса текстов) факультативна (31%)

  16. Рамки валентности (2) Объектная валентность для синсета {знакомый2} • Синтаксическое оформление валентной позиции Prep=«с»+ Pronoun (abl)или Noun (abl) • Семантическое оформление валентной позиции дерево ЧЕЛОВЕК • Ролевое оформление валентной позиции ОБЪЕКТ • Обязательность/факультативность валентной факультативна (46%)

  17. Рамки валентности(3) Пример рамки валентностей в xml-формате <VALENCE_FRAME> <VALENCE active="yes" obligatory="yes" main_segment="verb_phr" val_type="object1" val_seg="terminal_noun"> <morph_data CASE="acc" place="preposition" /> <sem_data TYPE="top" ID="RUS-nПРЕДМЕТ"/> </VALENCE> <VALENCE active="yes" obligatory="no" main_segment="verb_phr" val_type="subject"val_seg="terminal_noun"> <morph_data CASE="nom" place="postposition"/> <sem_data TYPE="top" ID="RUS-nЧЕЛОВЕК"/> </VALENCE> </VALENCE_FRAME>

  18. Разрешение неоднозначности Исходный текст:Я был знаком с тобой… Синтаксическая интерпретация 1: ((Я) (знакомый) ((с) (ты))) Синтаксическая интерпретация 2: ((Я) (знак) ((с) (ты))) Лексическая интерпретация 1-1:{знакомый1} Лексическая интерпретация 1-2:{знакомый2} … Лексическая интерпретация 2-1:{знак1} Лексическая интерпретация 2-2:{знак2} Лексическая интерпретация 2-3:{знак3} Верифицированный вариант 1: ((Я) (знакомый) ((с) (ты))) + {знакомый2}

  19. Синтаксическая семантика (1) Базовые свойства • Базовая единица –признаковая структура пропозиции • Ядро пропозиции – предикат + субъектно-объектные позиции • временные и причинно-следственные отношения между пропозициями Дополнительные свойства • Разные типы объектов пропозиции отождествляются в рамках схемы объектов семантического дерева RussNet • Периферия пропозиции – качественно-количественная характеристика предиката, субъекта и объектов

  20. Синтаксическая семантика (2) Текст:После нашего приезда в Вену я отправился на заранее определенное место встречи. Структура пропозиций: phrase [ SEM proposition [ ID id.приехать SUBJECT X = object [ID id.человек1] OBJECT3 object [ID id.Вена] TIME T1 ] ], phrase [ SEM proposition [ ID id.отправиться SUBJECT Y = object [ID id.человек1] PLACE Z = object [ID id.место] TIME T2] ], phrase [ SEM proposition [ ID id.встречать PLACE Z] ], phrase [ SEM proposition [ ID id.определить OBJECT1 Z TIME T3 ] ], before(T1, T2), before(T3, T2).

  21. Синтаксическая семантика (3) Синтаксическое правило грамматики NP (Case, …)  Noun head(Case, …) Noun daughter(gen, …) Синтактико-семантические правила 1. Пример конструкции: получение прибыли, строительство дома Noun headимеет в окрестности связьder_transposition_action Noun daughterвходит к широкую группировку деревьев «сущность» Семантическая интерпретация: «свернутая» пропозиция, ядром которой является глагольный синсет, связанный отношением «der_transposition_action», Noun daughter– объект пропозиции. [HEAD_DTR noun_phrase[ HEAD noun [CASE Case]SEM [ID Id1] ] NONHEAD_DTRS <noun_phrase[HEAD noun[CASE gen]SEM X=[ID Id2]]> SEM proposition[ ID Id OBJECT1 X ] ]=> entity_abstract(Id2), der_transposition_action(Id1,Id).

  22. Синтаксическая семантика (4) • Пример конструкции: создатель традиции, проповедник реинкарнации Noun headимеет в окрестности связьder_agent Noun daughterвходит к широкую группировку деревьев «сущность» Семантическая интерпретация: «свернутая» пропозиция, ядром которой является глагольный синсет, связанный отношением «der_agent», Noun daughter– объект пропозиции, субъект действия – референт группы. [HEAD_DTR noun_phrase[ HEAD noun [CASE Case]SEM [ID Id1] ] NONHEAD_DTRS <noun_phrase[HEAD noun[CASE gen]SEM X=[ID Id2]]> SEM proposition [ ID Id SUBJECT ref OBJECT1 X ] ] => entity_abstract(Id2), der_agent(Id1, Id).

  23. Ссылки • сайт проекта ИДЕОГРАФ (+RussNet Online): http://www.ideograph.ru • сайт грамматики AGFL: http://www.phil.pu.ru/depts/12/AGFL/rus/ • сайт тезауруса RussNet: http://www.phil.pu.ru/depts/12/RN/

  24. Спасибо за внимание!

More Related