Курсовая работа
This presentation is the property of its rightful owner.
Sponsored Links
1 / 28

Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич PowerPoint PPT Presentation


  • 109 Views
  • Uploaded on
  • Presentation posted in: General

Курсовая работа. Построение риторических деревьев текста на основе машинного обучения в рамках задачи автоматического реферирования. Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич. Задача реферирования.

Download Presentation

Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


427

Курсовая работа

Построение риторических деревьев текста на основе машинного обучения в рамках задачи автоматического реферирования

Выполнил:

Варламов Максим Игоревич

группа 427

Научный руководитель:

Майоров Владимир Дмитриевич


427

Задача реферирования

  • Реферирование - составление краткого изложения материала одного или нескольких информационных источников

  • В данной работе

    • источники и реферат – текстовые документы

    • только один источник

    • рассматриваются общие рефераты

      • не имеют специализированного назначения

      • в равной степени покрывают содержание исходных документов


427

Риторическая структура

  • Rhetorical Structure Theory (Mann, Thompson, 1988)

  • Текст – иерархия риторических отношений

  • В листьях обычно клаузы

  • Два вида отношений:

    • симметричные (многоядерные)

    • асимметричные (ядро – спутник)

  • Ядро имеет смысл без спутника, обратное неверно => ядровые сегменты предпочтительнее для включения в реферат


427

Пример


427

Система автоматического реферирования отдела Информационных систем ИСП РАН

  • Синтаксический анализатор – ABBYY Compreno

  • Подсистема взвешивания – алгоритм из статьи W. Bosma

  • Свой эвристический алгоритм построения риторического дерева. В основе:

    • Кореферентность

    • Сигнальные фразы

    • Ключевые слова


427

Система автоматического реферирования отдела Информационных систем ИСП РАН

  • Демонстрирует неудовлетворительное качество рефератов

    Baseline – по первому предложению с каждого абзаца


427

Цель работы

разработка и реализация алгоритма построения риторического дерева текста на основе машинного обучения


427

Постановка задачи

  • Исследовать известные подходы к построению риторических деревьев, в том числе на основе машинного обучения

  • Реализовать подход к построению RST-деревьев на основе машинного обучения в исходной системе

    • должен обрабатывать текст за линейное от его длины время

  • Сравнить качество работы ML-подхода с текущим алгоритмом

    • Качество деревьев (PARSEVAL)

    • Качество рефератов (ROUGE)


427

Алгоритм построения RST-дерева

  • Основан на работе duVerleи Predinger (2009)

  • Пусть S – множество сегментов текста

    • Сегмент – непрерывная последовательность клауз

    • Характеризуется своим RST-поддеревом

  • Два классификатора:

    • Оценивает вероятность наличия риторической связи между двумя сегментами

    • Определяет тип отношения между сегментами

  • Для реализации классификаторов использованы линейные SVM


427

Алгоритм построения RST-дерева


427

Признаки

  • Длины сегментов

  • Сигнальные фразы

    • присутствие/отсутствие в первых/последних 3 словах сегмента

  • Синтаксические признаки

    • части речи, синтаксические функции, …

    • первые/последние 3 слова сегмента, верхние 5 слов при обходе в ширину синтаксического дерева

  • Лексические классы

  • Риторическая структура

    • Типы верхних отношений в сегментах

    • Все предыдущие признаки для наиболее важных клауз сегментов


427

Обучение и тестирование

  • Риторическая структура

    • Discourse Relation Reference Corpus

      • 65 текстов, аннотированных экспертами в соответствии с RST

      • Распространяется свободно через сайт RST

    • Оценка качества - PARSEVAL

  • Рефераты

    • Материалы конференции DUC-2001

      • 311 статей с abstract-аннотациями (~100 слов)

      • 147 статей с extract-аннотациями (~160 слов)

    • Оценка качества – ROUGE

      • ROUGE-1,2

      • ROUGE-L

      • ROUGE-W


Feature selection

Feature Selection

  • Необходимо отсеять неинформативные признаки

    • Ранжирование признаков с помощью статистики хи-квадрат

    • Подбор оптимального порога посредством кросс-валидации

  • Размерность признакового пространства после бинаризации – 19 325 признаков

  • Было отобрано 465 признаков для первого классификатора и 72 для второго

  • Наиболее информативные признаки связаны с лексическими классами


427

Тестирование

  • Качество деревьев


427

Тестирование

  • Качество рефератов


427

Тестирование

  • Время работы


427

Заключение

  • Исследованы существующие подходы к построению риторических деревьев на основе машинного обучения

  • Реализован и встроен в исходную систему алгоритм построения RST-деревьев на основе SVM-классификации

    • Показывает линейное время работы по результатам тестов

  • Проведено тестирование алгоритма

    • Улучшилось как качество построения риторических деревьев, так и качество рефератов


427

Заключение

  • Тем не менее, новый подход

    • Слабо справляется с определением типов риторических отношений

    • В половине случаев работает хуже baseline-алгоритма реферирования


427

Спасибо за внимание!Вопросы?


427

Классификаторы

  • Линейные SVM

    • Хорошо зарекомендовали себя в данной задаче (Reitter, duVerle)

    • Возможность оценки вероятности принадлежности объекта классу

    • Возможность мультиклассовой классификации

    • Хорошо справляются с большим количеством взаимосвязанных признаков при малой размерности обучающей выборки

    • Линейное время классификации


Parseval

PARSEVAL

  • Пусть P – множество составляющих (узлов) сгенерированного дерева, Q – экспертного. Тогда


427

Хи-квадрат

  • Для данных признака fи класса c

    • где A – число примеров класса c, где f =1;

    • B – число примеров, не принадлежащих c, где f =1;

    • C – число примеров класса c, где f =0;

    • D – число примеров, не принадлежащих c, где f =0;

    • m = A+B+C+D – общее число примеров

  • Оценка признака fотносительно всех классов


  • Login