1 / 23

Извлечение информации из текста в системе ИСИДА-Т

Извлечение информации из текста в системе ИСИДА-Т. Д.А.Кормалев , Е.П.Куршев , Е.А.Сулейманова, И.В.Трофимов ( Институт программных систем РАН ) RCDL-2009. Извлечение информации из текстов.

allene
Download Presentation

Извлечение информации из текста в системе ИСИДА-Т

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Извлечение информации из текста в системе ИСИДА-Т Д.А.Кормалев, Е.П.Куршев, Е.А.Сулейманова, И.В.Трофимов (Институт программных систем РАН) RCDL-2009

  2. Извлечение информации из текстов • Выявления в электронных документах всех упоминаний об объектах и фактах, представляющих интерес для пользователя • Сфера интересов пользователя определяется заранее (в процессе создания или настройки системы извлечения)

  3. Извлечение в «слабом» смысле • Поверхностный анализ близкий к семантическому маркированию текста • Проекция на простую реляционную модель • Анализ простых контекстов. Низкая полнота • Неплохо работает как поисковая технология на больших коллекциях документов

  4. Извлечение в «сильном» смысле • Детальный анализ с опорой на модель предметной области, точная классификация объектов • Проекция на объектно-ориентированную модель • Нормализация извлекаемого • Отождествление извлекаемого

  5. Слабое и сильное

  6. Слабое и сильное: примеры • Исполнительный директор ОАО «Рога и копыта» Алексей Иванов… • Заместителем Иванова в комитете Госдумы по вопросам внешней политики назначена Юлия Петрова.

  7. Что нужно? • Нужно знать язык • Нужно обладать «фоновыми» знаниями о предметной области

  8. Средства анализа естественного языка • Средства общего лингвистического анализа • Средства предметно-ориентированного анализа • выявление целевой лексики • распознавание целевых сущностей, их атрибутов и отношений между этими сущностями

  9. CPSL (common pattern specification language) • Декларация способа выражения в тексте сущности или факта в терминах грамматических атрибутов и используемой лексики.

  10. Расширение CPSL • Переменные • Проверка взаимного расположения фрагментов текста (не только следование, но и различного рода вложение, пересечение) • Функции для обращения к модели предметной области

  11. Опора на модель • Точная классификация сущностей • Президенту ОАЭ Газпром сделал предложение… • Президенту ОАО Газпром сделали предложение… • Точное установление отношений • Отдел компании (является частью) • Совет директоров компании (возглавляет)

  12. Модели недостаточно • Для разрешения неоднозначностей иногда требуется обширная фактографическая база • По словам руководителя администрации президента Российской Федерации Сергея Нарышкина… • По словам руководителя администрации президента Медведева….

  13. Ресурс знаний База априорных предметных знаний + Словарь предметной лексики + Фактографическая база

  14. Классификация знаний

  15. Сложности • Таксономия (дифференцирующие критерии) • Что выражать через атрибуты, а что через таксономию. • Иногда идем от текстов (иерархия по гипонимам/гиперонимам) • Аморфные понятия (власти, аппарат = администрация)

  16. Унификация + вывод + отождествление = частичное целеориентированное разрешение референции Пример: • Украинский спикер • Спикер украинского парламента • Спикер Верховной Рады

  17. Вывод: интерпретация признаков • Ярославский губернатор • Ярославский мэр

  18. Сложность • Курчатовский институт < -- > г. Курчатов

  19. Вывод: для унификации • Украинский спикер

  20. Отождествление • Правила отождествления • Сопоставление подграфов в фактографической базе

  21. Исида-Т • Инструментальное средство для создания специализированных систем извлечения информации

  22. Вопросы?

  23. Спасибо за внимание!

More Related