1 / 28

Итерационное извлечение шаблонов описания событий по новостным кластерам

Итерационное извлечение шаблонов описания событий по новостным кластерам. Котельников Дмитрий Сергеевич МГУ им. М.В. Ломоносова Лукашевич Наталья Валентиновна НИВЦ МГУ им. М.В. Ломоносова. План. Задача извлечения информации из текста Извлечение сущностей

vadin
Download Presentation

Итерационное извлечение шаблонов описания событий по новостным кластерам

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Итерационное извлечение шаблонов описания событий по новостным кластерам Котельников Дмитрий Сергеевич МГУ им. М.В. Ломоносова Лукашевич Наталья Валентиновна НИВЦ МГУ им. М.В. Ломоносова

  2. План • Задача извлечения информации из текста • Извлечение сущностей • Итерационное извлечение шаблонов описания событий • Оценка предложенного подхода и результаты

  3. Извлечение информации из текста • Выделение из текста на естественном языке структурированной информации • «МВФ предоставит Белоруссии кредит на сумму $2,46 млрд» • Кредитор: МВФ • Получатель: Белоруссия • Сумма: $2,46 млрд

  4. Подходы к созданию систем • Системы основанные на знаниях («инженерный подход») • Правила выделения фактов из текста составляются человеком вручную • Высокая трудоемкость создания • Сложность адаптации к извлечению новых фактов • Автоматически обучающиеся системы • Правила выделения событий формируются автоматически • Необходимость создания размеченной коллекции

  5. Итерационный метод • S. Brin “Extracting Patterns and Relations from the World Wide Web” • Обучение начинается с небольшого количества размеченных примеров • <LI><B>First Men in the Moon</B>by H. G. Wells ( • <LI><B>title</B> by author ( Извлечение шаблонов Извлечение фактов

  6. Постановка задачи • Разработать способ автоматического формирования шаблонов для системы извлечения информации из текста. • Проверить качество работы системы при обучении на небольшом количестве размеченных примеров • Новостные кластеры — источник разнообразных описаний событий

  7. План • Задача извлечения информации из текста • Извлечение сущностей • Итерационное извлечение шаблонов описания событий • Оценка предложенного подхода и результаты

  8. Извлечение сущностей • Виды извлекаемых сущностей: • обозначениядатыиливремени:«5 августа 2006 года»«05.07.1988» • числовыевыражения:«5,5 миллиардовдолларов»«пятьдесятпроцентов» • именованные объекты:«Международный валютный фонд»«В.В. Путин»

  9. Извлечение сущностей • Для выделения именованных сущностей использовался упрощенный алгоритм • Президент Дмитрий Медведев поручил правительству Российской Федерации не выполнять протокол

  10. Извлечение сущностей • Анализ совместной встречаемости сущностей в предложениях: • Россия готова участвовать в кредите ЕС Киеву на энергоцели - заявил Путин; • В ответ на жесткую позицию России, которая заявила, что не будет выполнять подписанный Киевом протокол по транзиту газа из-за внесенных в него оговорок, ЕС и Украина говорят, что согласны рассмотреть претензии Москвы»

  11. Поиск синонимичных сущностей • Один объект может описываться различными выражениями: • «МВФ» • «Международныйвалютныйфонд» • «Советдиректоров МВФ» • «ИсполнительныйсоветМеждународноговалютногофонда»

  12. Поиск синонимичных сущностей • Совпадение контекстов употребления слова: • Заместитель главы Газпрома Александр Медведев заявил, что поставки российского газа вЕвросоюзчерез территорию Украины могут быть возобновлены. • Поставки российского газа вЕвропучерез территорию Украины могут быть возобновлены.

  13. Поиск синонимичных сущностей • Контексты через глагол: • Президент Дмитрий Медведевпоручилправительству Российской Федерации не выполнять протокол до тех пор, пока в нем не будут сняты противоречия. • Президент России Дмитрий Медведевпоручилправительству Российской Федерации не выполнять протокол до тех пор, пока в нем не будут сняты противоречия.

  14. План • Задача извлечения информации из текста • Извлечение сущностей • Итерационное извлечение шаблонов описания событий • Оценка предложенного подхода и результаты

  15. Исходные данные • Новостной кластер на заданную тему, в котором указаны все участники события: • Покупатель:«Microsoft» • Товар: «Yahoo» • Сумма: «44,6 млрд»

  16. Метод формирования шаблонов Известные факты Поиск сущностей в предложениях кластера Применение шаблонов Извлечение шаблонов

  17. Метод формирования шаблонов • «Microsoft намерена купитьYahoo за 44,6 млрд долларов» • «Компания Microsoft собирается приобрестипоисковую систему Yahooза 44,6 миллиардов долларов»

  18. Метод формирования шаблонов Известные факты Поиск сущностей в предложениях кластера Применение шаблонов Извлечение шаблонов

  19. Значимые слова • Присутствие некоторых слов в предложении может указывать на наличие в нем извлекаемого события • «МВФ предоставил Белоруссии кредит на $2,46 млрд» • «МВФ дал Белоруссии $2,46 млрд»

  20. Извлечениешаблонов • Выделяется непустая подстрока лемм между двумя различными слотами • Шаблон должен обязательно содержать глагол и значимое слово: • «Microsoft намерена купитьYahooза 44,6 млрд долларов» • [Entity:Buyer:[Им]] НАМЕРИТЬ {КУПИТЬ}[Entity: Goods:[Дт]] ЗА[Number:Amount]

  21. Метод формирования шаблонов Известные факты Поиск сущностей в предложениях кластера Применение шаблонов Извлечение шаблонов

  22. План • Задача извлечения информации из текста • Извлечение сущностей • Итерационное извлечение шаблонов описания событий • Оценка предложенного подхода и результаты

  23. Эксперименты • Была размечена коллекция из 84 новостных кластеров. • Пример разметки: • Кредитор : МВФ ; Совет директоров МВФ ; совета директоров Международного валютного фонда ; Международный валютный фонд ; Исполнительный совет директоров МВФ ; СД МВФ • Сумма : 2 , 5 миллиардов долларов ; 2 , 46 млрд долл ; • Получатель : Минск ; Белоруссии ; Беларуси ; власти Белоруссии

  24. Эксперименты • Результаты перекрестной проверки при разделении на 4 части:

  25. Эксперименты • Сравнение с системой, основанной на инженерном подходе для факта получения кредита

  26. Примеры шаблонов • [Entity:Creditor:[Им]] <ПРЕДОСТАВИТЬ> [Entity:Debtor:[Рд, Дт, Пр]] {КРЕДИТ} • [Entity:Creditor:[Вн, Им]] <ВЫДЕЛИТЬ> [Entity:Debtor:[Им, Рд]] {КРЕДИТ} • [Entity:Debtor:[Им]] <ПОЛУЧИТЬ> {КРЕДИТ} НА [Number:Amount] • [Entity:Creditor:[Им]] <ВЫДЕЛИТЬ> [Entity:Debtor:[Рд, Дт, Пр]] {КРЕДИТ} В [Number:Amount]

  27. Примеры значимых слов

  28. Результаты • Разработан метод итерационного извлечения шаблонов для системы извлечения информации из текста, основанный на нахождении в новостном кластере несколько близких по содержанию предложений. • Проведены эксперименты, которые показали применимость системы для формирования шаблонов на небольшом количестве размеченных примеров

More Related