230 likes | 450 Views
Извлечение информации из текста в системе ИСИДА-Т. Д.А.Кормалев , Е.П.Куршев , Е.А.Сулейманова, И.В.Трофимов ( Институт программных систем РАН ) RCDL-2009. Извлечение информации из текстов.
E N D
Извлечение информации из текста в системе ИСИДА-Т Д.А.Кормалев, Е.П.Куршев, Е.А.Сулейманова, И.В.Трофимов (Институт программных систем РАН) RCDL-2009
Извлечение информации из текстов • Выявления в электронных документах всех упоминаний об объектах и фактах, представляющих интерес для пользователя • Сфера интересов пользователя определяется заранее (в процессе создания или настройки системы извлечения)
Извлечение в «слабом» смысле • Поверхностный анализ близкий к семантическому маркированию текста • Проекция на простую реляционную модель • Анализ простых контекстов. Низкая полнота • Неплохо работает как поисковая технология на больших коллекциях документов
Извлечение в «сильном» смысле • Детальный анализ с опорой на модель предметной области, точная классификация объектов • Проекция на объектно-ориентированную модель • Нормализация извлекаемого • Отождествление извлекаемого
Слабое и сильное: примеры • Исполнительный директор ОАО «Рога и копыта» Алексей Иванов… • Заместителем Иванова в комитете Госдумы по вопросам внешней политики назначена Юлия Петрова.
Что нужно? • Нужно знать язык • Нужно обладать «фоновыми» знаниями о предметной области
Средства анализа естественного языка • Средства общего лингвистического анализа • Средства предметно-ориентированного анализа • выявление целевой лексики • распознавание целевых сущностей, их атрибутов и отношений между этими сущностями
CPSL (common pattern specification language) • Декларация способа выражения в тексте сущности или факта в терминах грамматических атрибутов и используемой лексики.
Расширение CPSL • Переменные • Проверка взаимного расположения фрагментов текста (не только следование, но и различного рода вложение, пересечение) • Функции для обращения к модели предметной области
Опора на модель • Точная классификация сущностей • Президенту ОАЭ Газпром сделал предложение… • Президенту ОАО Газпром сделали предложение… • Точное установление отношений • Отдел компании (является частью) • Совет директоров компании (возглавляет)
Модели недостаточно • Для разрешения неоднозначностей иногда требуется обширная фактографическая база • По словам руководителя администрации президента Российской Федерации Сергея Нарышкина… • По словам руководителя администрации президента Медведева….
Ресурс знаний База априорных предметных знаний + Словарь предметной лексики + Фактографическая база
Сложности • Таксономия (дифференцирующие критерии) • Что выражать через атрибуты, а что через таксономию. • Иногда идем от текстов (иерархия по гипонимам/гиперонимам) • Аморфные понятия (власти, аппарат = администрация)
Унификация + вывод + отождествление = частичное целеориентированное разрешение референции Пример: • Украинский спикер • Спикер украинского парламента • Спикер Верховной Рады
Вывод: интерпретация признаков • Ярославский губернатор • Ярославский мэр
Сложность • Курчатовский институт < -- > г. Курчатов
Вывод: для унификации • Украинский спикер
Отождествление • Правила отождествления • Сопоставление подграфов в фактографической базе
Исида-Т • Инструментальное средство для создания специализированных систем извлечения информации