120 likes | 433 Views
RussNet как компьютерный тезаурус нового типа. И.В.Азарова Санкт - Петербургский государственный университет Филологический факультет Кафедра математической лингвистики. RussNet http://project.phil.pu.ru/RussNet/.
E N D
RussNet как компьютерный тезаурус нового типа И.В.Азарова Санкт-Петербургскийгосударственный университет Филологический факультет Кафедра математической лингвистики
WordNet (G.Miller, Ch.Fellbaum) – Психолексикология http://wordnet.princeton.edu/ • единица лексического пространства – «синсет»–синонимия «литералов» • критерии синонимии; • глоссы = родовидовые определения; • примеры употребления; • родовидовые отношения организуют синсеты в деревья • между родовым и видовым синсетом есть хотя бы один различительный признак; • доступны согипономы и видны их отличия; • возможно двойное подчинение синсетов; • «наследование» свойств в родовидовых деревьях • «лес» семантических деревьев существительных и глаголов
EuroWordNet– Многоязычнаялексическаябазаhttp://www.illc.uva.nl/EuroWordNet/
Relation type NEAR_SYNONYMY XPOS_NEAR_SYNONYM HAS_HYPERONYM HAS_HYPONYM HAS_XPOS_HYPERONYM HAS_HOLONYM HAS_HOLO_PART NEAR_ANTONYMY XPOS_NEAR_ANTONYMY CAUSESIS HAS_SUBEVENT IS_SUBEVENT_OF … EQ_SYNONYM EQ_HAS_HYPERONYM EQ_HAS_HYPONYM … Data types WM<>WM WM<>WM WM<>WM WM<>WM WM<>WM WM<>WM WM<>WM WM<>WM WM<>WM WM<>WM WM<>WM WM<>WM … WM<>ILIR WM<>ILIR WM<>ILIR … Семантические отношения в EuroWordNet • Parts of speech • N<>N, V<>V • N<>N, V<>V • N>N, V>V • N>N, V>V • N>N, V>V • N>N • N>N • N<>N, V<>V • N<>N, V<>V • V>V, N>V… • N>N, V>V… • N>N, V>V … • … • N<>N, V<>V… • N>N, V>V … • N>N, V>V … • …
RussNet (Кафедра математической лингвистики)http://project.phil.pu.ru/RussNet/ Унаследованные свойства wordnet-словарей • Значения четырех основных ЧР • Опора на корпус современных текстов (21 млн. с/у) • Нетерминологический характер лексикона • Устойчивые словосочетания • Объединение синсетов в «семантические деревья» отношением гипонимии или меронимии
Структура RussNet Дополнительные свойства RussNet • синонимы в синсетах упорядочены по частоте встречаемости; есть доминанта синсета • расширен набор собственно семантических отношений • введен набор семантико-деривационных и семантико-грамматических отношений • добавлено описание валентностной структуры, включающее как семантические, так и поверхностно-грамматические атрибуты • прилагательные организованы в иерархические структуры на основе их сочетаемости с существительными • введены наборы «семантических деревьев»
Структура RussNet Причины изменения методики построения словаря • специфика русского языка (флективный язык, развитая деривационная система) • отсутствие некоторых источников лексической информации • недостатки и недочеты стандартных методик, ставшие очевидными при практическом использовании wordnet-тезаурусов
Рамки валентности в тезаурусе RussNet • обязательность/ факультативность валентности • активная / пассивная рамка валентностей • общая семантическая характеристика валентности • ролевая характеристика валентности • семантические ограничения на заполнение валентной позиции • грамматическая спецификация валентности