slide1
Download
Skip this Video
Download Presentation
Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Loading in 2 Seconds...

play fullscreen
1 / 28

Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич - PowerPoint PPT Presentation


  • 175 Views
  • Uploaded on

Курсовая работа. Построение риторических деревьев текста на основе машинного обучения в рамках задачи автоматического реферирования. Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич. Задача реферирования.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич' - rowan-mcconnell


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

Курсовая работа

Построение риторических деревьев текста на основе машинного обучения в рамках задачи автоматического реферирования

Выполнил:

Варламов Максим Игоревич

группа 427

Научный руководитель:

Майоров Владимир Дмитриевич

slide2
Задача реферирования
  • Реферирование - составление краткого изложения материала одного или нескольких информационных источников
  • В данной работе
    • источники и реферат – текстовые документы
    • только один источник
    • рассматриваются общие рефераты
      • не имеют специализированного назначения
      • в равной степени покрывают содержание исходных документов
slide3
Риторическая структура
  • Rhetorical Structure Theory (Mann, Thompson, 1988)
  • Текст – иерархия риторических отношений
  • В листьях обычно клаузы
  • Два вида отношений:
    • симметричные (многоядерные)
    • асимметричные (ядро – спутник)
  • Ядро имеет смысл без спутника, обратное неверно => ядровые сегменты предпочтительнее для включения в реферат
slide5
Система автоматического реферирования отдела Информационных систем ИСП РАН
  • Синтаксический анализатор – ABBYY Compreno
  • Подсистема взвешивания – алгоритм из статьи W. Bosma
  • Свой эвристический алгоритм построения риторического дерева. В основе:
    • Кореферентность
    • Сигнальные фразы
    • Ключевые слова
slide6
Система автоматического реферирования отдела Информационных систем ИСП РАН
  • Демонстрирует неудовлетворительное качество рефератов

Baseline – по первому предложению с каждого абзаца

slide7
Цель работы

разработка и реализация алгоритма построения риторического дерева текста на основе машинного обучения

slide8
Постановка задачи
  • Исследовать известные подходы к построению риторических деревьев, в том числе на основе машинного обучения
  • Реализовать подход к построению RST-деревьев на основе машинного обучения в исходной системе
    • должен обрабатывать текст за линейное от его длины время
  • Сравнить качество работы ML-подхода с текущим алгоритмом
    • Качество деревьев (PARSEVAL)
    • Качество рефератов (ROUGE)
slide9
Алгоритм построения RST-дерева
  • Основан на работе duVerleи Predinger (2009)
  • Пусть S – множество сегментов текста
    • Сегмент – непрерывная последовательность клауз
    • Характеризуется своим RST-поддеревом
  • Два классификатора:
    • Оценивает вероятность наличия риторической связи между двумя сегментами
    • Определяет тип отношения между сегментами
  • Для реализации классификаторов использованы линейные SVM
slide11
Признаки
  • Длины сегментов
  • Сигнальные фразы
    • присутствие/отсутствие в первых/последних 3 словах сегмента
  • Синтаксические признаки
    • части речи, синтаксические функции, …
    • первые/последние 3 слова сегмента, верхние 5 слов при обходе в ширину синтаксического дерева
  • Лексические классы
  • Риторическая структура
    • Типы верхних отношений в сегментах
    • Все предыдущие признаки для наиболее важных клауз сегментов
slide12
Обучение и тестирование
  • Риторическая структура
    • Discourse Relation Reference Corpus
      • 65 текстов, аннотированных экспертами в соответствии с RST
      • Распространяется свободно через сайт RST
    • Оценка качества - PARSEVAL
  • Рефераты
    • Материалы конференции DUC-2001
      • 311 статей с abstract-аннотациями (~100 слов)
      • 147 статей с extract-аннотациями (~160 слов)
    • Оценка качества – ROUGE
      • ROUGE-1,2
      • ROUGE-L
      • ROUGE-W
feature selection
Feature Selection
  • Необходимо отсеять неинформативные признаки
    • Ранжирование признаков с помощью статистики хи-квадрат
    • Подбор оптимального порога посредством кросс-валидации
  • Размерность признакового пространства после бинаризации – 19 325 признаков
  • Было отобрано 465 признаков для первого классификатора и 72 для второго
  • Наиболее информативные признаки связаны с лексическими классами
slide14
Тестирование
  • Качество деревьев
slide15
Тестирование
  • Качество рефератов
slide16
Тестирование
  • Время работы
slide17
Заключение
  • Исследованы существующие подходы к построению риторических деревьев на основе машинного обучения
  • Реализован и встроен в исходную систему алгоритм построения RST-деревьев на основе SVM-классификации
    • Показывает линейное время работы по результатам тестов
  • Проведено тестирование алгоритма
    • Улучшилось как качество построения риторических деревьев, так и качество рефератов
slide18
Заключение
  • Тем не менее, новый подход
    • Слабо справляется с определением типов риторических отношений
    • В половине случаев работает хуже baseline-алгоритма реферирования
slide20
Классификаторы
  • Линейные SVM
    • Хорошо зарекомендовали себя в данной задаче (Reitter, duVerle)
    • Возможность оценки вероятности принадлежности объекта классу
    • Возможность мультиклассовой классификации
    • Хорошо справляются с большим количеством взаимосвязанных признаков при малой размерности обучающей выборки
    • Линейное время классификации
parseval
PARSEVAL
  • Пусть P – множество составляющих (узлов) сгенерированного дерева, Q – экспертного. Тогда
slide28
Хи-квадрат
  • Для данных признака fи класса c
    • где A – число примеров класса c, где f =1;
    • B – число примеров, не принадлежащих c, где f =1;
    • C – число примеров класса c, где f =0;
    • D – число примеров, не принадлежащих c, где f =0;
    • m = A+B+C+D – общее число примеров
  • Оценка признака fотносительно всех классов
ad