1 / 44

8.1.  WordNet . Описание ресурса

8.1.  WordNet . Описание ресурса . WordNet. Реляционное описание лексики английского языка Иерархическая сеть понятий (synset) Каждое слово относится к одному или нескольким понятиям Отдельная иерархическая сеть для различных частей речи – психолингвистическое обоснование

lotus
Download Presentation

8.1.  WordNet . Описание ресурса

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 8.1. WordNet. Описание ресурса

  2. WordNet • Реляционное описание лексики английского языка • Иерархическая сеть понятий (synset) • Каждое слово относится к одному или нескольким понятиям • Отдельная иерархическая сеть для различных частей речи – психолингвистическое обоснование • Автор: George Miller (50-e годы статья «Магическое число 7») • Версия 1.6: 95 тысяч понятий, около 130 тысяч слов

  3. Синсеты • Синсет (набор синонимов) – единица словаря => понятие • Семантические отношения между синсетами • Синонимы имеют одинаковое толкование • Различные значения слов входят в разные синсеты

  4. WordNet: пример описания значений • The noun forest has 2 senses (first 2 from tagged texts) • 1. forest, wood, woods -- (the trees and other plants in a large densely wooded area) • 2. forest, woodland, timberland, timber -- (land that is covered with trees and shrubs) • The verb forest has 1 sense (no senses from tagged texts) • 1. afforest, forest -- (establish a forest on previously unforested land; "afforest the mountains")

  5. Лексическая иерархия - 1 • Грач – перелетная птица семейства вороновых • Птица – покрытое пухом и перьями позвоночное животное • Животное – всякое живое существо, исключая растения • Грач – птица – животное – живое существо

  6. Лексическая иерархия - 2 • Отношение: Гипоним – гипероним • Птица - гипероним (род) для грача • Грач – гипоним (вид) для птицы • = родовидовое отношение= Is_a= is_a_ kind_of • Транзитивность отношения

  7. Как построить лексическую иерархию по словарю? • Много попыток автоматизации – но… • Существование циклов • Толкования, в которых не указано родовое слово • В WordNet – иерархия строилась вручную

  8. Анализ толкований для выявления отношений • Возбудимый – 1. Легко приводимый в возбужденное состояние. Возбудимый ребенок • Раздражительный – быстро раздражающийся; обнаруживающий раздражение, склонный к раздражению. Раздражительный характер. Раздражительный тон. • Беспокойный – испытывающий волнение, склонный к нему, лишенный покоя. Беспокойный человек. • Впечатлительный – легко поддающийся впечатлениям, чуткий. Впечатлительный юноша

  9. WordNet: описание гиперонимов 1. forest, wood, woods – => vegetation, flora -- => collection, aggregation, accumulation,assemblage => group, grouping 2. forest, woodland, timberland, timber => land, dry land, earth, ground, solid ground,terra firma => object, physical object => entity, something

  10. WordNet: гипонимы 1. forest, wood, woods -- => grove -- (a small growth of trees without underbrush) => old growth, virgin forest -- (forest or woodland having a matureor overmature ecosystem more or less uninfluenced by humanactivity) => second growth -- (a second growth of trees coveringan areawherethe original stand was destroyedby fire or cutting) 2. forest, woodland, timberland, timber – => Black Forest, Schwarzwald -- (a hilly forest region in southwesternGermany) => greenwood -- (woodlands in full leaf) => jungle -- (an impenetrable equatorial forest) => rain forest, tropical rain forest -- (a tropical forest with heavyannualrainfall) => riparian forest -- (woodlands along the banksof stream or river) => Sherwood Forest -- (an ancient forest in centralEngland) => silva, sylva -- (the forest trees growing in a country or region)…

  11. Верхние уровни иерархии существительных • {act, activity}, {animal, fauna}, • artifact, attribute, • body, {cognition, knowledge}, • communication, {event, happening}, • {feeling, emotions}, food, • {group, grouping}, location, • {motivation, motive}, {natural phenomenon}, • {person, human being} {plant, flora}, • possession, process, • {quantity, amount}, relation, • shape, substance, time

  12. Самые верхние уровни: подразделения (thing, entity) • (living thing, organism) • (plant, flora) • (animal, fauna) • (person, human being) • (non-living thing, object) • Natural object --body • Artifact • Substance - food

  13. Верхний уровень - 2 • Phenomenon • Natural phenomenon • process • (psychological feature) • (Cognition, knowledge) • (Mental object) • (motivation, motive) • feeling

  14. Верхний уровень -3 • Abstraction • (quantity, amount) • Relation - communication • Time • Attribute • Activity • Event • Group • Possession

  15. Психолингвистические предположения • Каждое понятие имеет характерные свойства • Некоторые свойства наследуются • 1969 эксперимент: • Ответ на вопрос дрозд – это птица быстрее, чем на вопрос дрозд – это животное • Чем длиннее путь по иерархии, тем дольше ответ

  16. Теория прототипов • Ответ на вопрос дрозд – это птица, быстрее, чем на вопрос «курица – это птица» • Дрозд – более типичная птица • Понятие представляется не списком свойств, а набором типичных примеров • Возможно, типичные примеры и иерархия сосуществуют в памяти

  17. Отношение Часть-Целое • Мероним – часть, холоним – целое • Проверочные фразы: • X – это часть Y • Часто бывает иерархическим, транзитивным: • Кисть – это часть руки, рука – это часть тела=> кисть – это часть тела

  18. Иерархия частей • Двигатель – часть автомобиля • Колесо – часть автомобиля • Но: колесо, двигатель – бывают у многих других сущностей • Наследование частей • Проблема указания правильного места части: колесо – транспортное средство?

  19. WordNet: меронимы (части) • Sense 1 • forest, wood, woods -- (the trees and other plants in a large densely wooded area) • HAS MEMBER: underbrush, undergrowth, underwood -- (the brush (small trees and bushes and ferns etc.) growing beneath taller trees in a wood or forest) • HAS MEMBER: tree -- (a tall perennial woody plant having a main trunk and branches forming a distinct elevated crown; includes both gymnosperms and angiosperms)

  20. Отношения между синсетами существительных • Гипоним – гипероним • Холоним – мероним • В оболочке можно посмотреть: • Гиперонимы • Гипонимы на один шаг и до конца • Coordinated synsets – подчиненные тому же гиперониму • Меронимы и холонимы для заданного понятия • Меронимы и холонимы по свойству наследования

  21. Проблема теста • Ручка часть двери, дверь – часть дома, • Ручка – часть дома? • Ветка – часть дерева, дерево –часть леса, • Ветка – часть леса? • Мозг – часть человека, человек – часть общества, мозг – часть общества • Разные типы отношений часть-целое

  22. Типы отношений часть-целое 1) компонент- объект (ветка – дерево) - Wn 2) элемент – множество (дерево - лес) - Wn 3) порция – материал – (кусок – кекс) 4) материал – объект (алюминий – самолет) - Wn 5) часть деятельности (оплата – покупка) 6) место – местность (Москва – Россия)

  23. Представление прилагательных • Качественные (descriptive) и относительные (relational) • Описание качественных прилагательных организовано на основе – отношение синонимии и антонимии • (heavy, weighty, ponderous) • (light, weightless, airy)

  24. Важность отношений антонимии • Психологические тесты по проверке ассоциаций: хороший – плохой –хороший • The importance of antonymy in the organization of descriptive adjectives is understandable when one recognizes that the function of these adjectives is to express values of attributes and that attributes tend to be bipolar.

  25. Описание качественных прилагательных: heavy • Heavy (vs. light) • Dense • Doughy,soggy • Heavyweight • Hefty • Massive • Middleweight • Ponderous • welterweight

  26. Описание качественных прилагательных-light • Light (vs.heavy) • Airy • Bantamweight • Buoyant, floaty • Chiffon • Feathery, featherlike • Low-density • lightweight

  27. Прилагательные: специальные решения • Angry (enraged, irate, wrathful, furious) – unagry • Цвета • Chromatic (vs. achromatic), colored

  28. red, redness • Red, redness • Chromatic color, chromatic colour • Color, colour • Visual property • Property • attribute • abstraction

  29. Представление глаголов • Отношения: • Тропонимия (troponymy) • Лексическое следование (lexical entailment) • Антонимия • Каузальные отношения между глаголами (causal relations)

  30. Глаголы: разделение на семантические поля • Motion, perception, contact, communication, competition, change, creation, emotion, possession, social behaviour, bodily care and functions, cognition, consumption, weather verbs • Внутри поля может быть несколько вершин: possessions: (give, transfer), (take, receive), (have, hold)

  31. Lexical entailment • Глаголы V1 и V2 • Если Некто V1, то значит Некто V2 • Если человек храпит, значит, он спит • Если человек ведет (drive) транспортное средство, то значит он едет (ride) • Если человек купил, значит он заплатил • Похоже на часть-целое

  32. Troponymy • Делать V1 означает делать V2 в некоторой особой манере • Fight: fistfight, battle, war, attack, feud, box … • Walk: stumble, toe, limp, stroll, march • Рассматривается как вид отношения следования – имеется совпадение по времени

  33. Тропонимия – основа иерархии глаголов • 4 уровня иерархии • Существование уровней с большим количеством глаголов: communicate – talk – babble/ mumble/murmur… • Сужение потенциальных аргументов • Наследование аргументной структуры • Communication: communicator, recipient, message

  34. Антонимы • Appear – disappear • Lengthe – shorten • Tie – untie • Emigrate – immigrate • Exclude – include • Fall/descend – rise/ascend

  35. Каузальные отношения • Give – have • Отношение каузативности - разновидность лексического следования: • Если V1 является причиной V2, то V2 следует из V1

  36. Подразделения entailment • Temporal inclusion+ • Troponymy (совпадение по времени - march - walk • Собственно entailment (walk –step, snore – sleep) • Temporal inclusion- • Cause (show-see) • Backward presupposition (forget – know, unwrap – wrap)

  37. Проблемы разработки большой таксономии: параллельные места • coin collection -- (the act or practice of collecting coins) • numismatics, numismatology, coin collecting - (the collection and study of money (and coins in particular)) vs. • philately, stamp collecting, stamp collection -- (the collection and study of postage stamps)

  38. Проблемы разработки большой тахономии: каждое отношение похоже на правду, а весь путь - ? spider web is an artifact? spider web, spider's web (a web spun by spiders to trap insect prey ) => web, entanglement -- => trap -- => device -- => instrumentality, instrumentation -- => artifact, artefact (a man-made object)

  39. Проблема разработки большой таксономии: возможные отношения hymn, anthem -- (a song of praise (to God or to a saint or to a nation)) => religious song -- (religious music for singing) hymn, anthem -- (a song of praise (to God or to a saint or to a nation))… => national anthem -- (a song formally adopted as the anthem for a nation) => Marseillaise -- (the French national anthem) => Star-Spangled Banner -- (the national anthem of the US)

  40. Проблемы разработки большой таксономии: вышестоящее понятие частично характеризует нижестоящее consumer goods -- (goods (as food or clothing) intended for direct use or consumption) => clothing, clothes, apparel, vesture, wearing apparel, wear => footwear -- => hosiery -- => sock -- => durables, durable goods, consumer durables – => appliance =>dryer, drier => clothes dryer --

  41. Проблемы описания отношений WordNet: tennis problem • Авторы: tennis problem – невозможно найти понятия, относящиеся, например, к теннису. • Это действительно очень серьезная проблема: фермер - сельское хозяйство, летчик - авиация • Вводится отношение Domain – связь между понятиями и соответствующей сферой деятельности • Однако это вершина айсберга. Нужно уметь описывать широкий спектр отношений: река – паводок, гараж – автомобиль, лед - ледоход

  42. Проблемы разработки большого лингвистического ресурса: описание многозначности • 25 значений прилагательного good • 41 значение глагола cut • Sense 19 cut -- (make a recording of: "cut the songs") => record, tape -- (register electronically) • Sense 20 cut -- (record a performance on; "cut a record") => record, tape -- (register electronically)

  43. EuroWordNet • Структурные лингвистические ресурсы • Интерлингва: английский WordNet • Первоначально: испанский, итальянский, голландский • Далее: немецкий, французский, чешский, эстонский • Известны попытки создать свои структурные ресурсы на базе WordNet:японский, болгарский, румынский, шведский и др.

  44. Вопросы к лекции • Как называютсяэлементарные структурные единицы WordNnet? • Перечислите основные отношения в WordNnet. • Какими средствами в WordNnet представляются глаголы?

More Related