1 / 33

Автоматическое выделение структур в тексте

Автоматическое выделение структур в тексте. Принципы. Отсутствие предварительной разметки текста Автоматическая обработка Статистические критерии выделения структур Иерархическое построение Наличие классов свободного варьирования Представление исходного текста в виде графа

mauritz
Download Presentation

Автоматическое выделение структур в тексте

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Автоматическое выделение структур в тексте * Санкт-Петербург 2007 *

  2. Принципы • Отсутствие предварительной разметки текста • Автоматическая обработка • Статистические критерии выделения структур • Иерархическое построение • Наличие классов свободного варьирования • Представление исходного текста в виде графа • Итерационное выявление новых структур на основе уже существующих * Санкт-Петербург 2007 *

  3. Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур Тестовые данные * Санкт-Петербург 2007 *

  4. Деление исходного текста на «морфемы» • использован список морфем из первого тома Русской Грамматики • формальное и искусственное деление • деление на ММЕ (минимальные морфологические единицы) или слова • выбор самой длинной морфемы * Санкт-Петербург 2007 *

  5. который к ото р ый оказался о к а за л ся прекрасный пре кра с н ый Примеры деления слова на ММЕ * Санкт-Петербург 2007 *

  6. Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур Тестовые данные * Санкт-Петербург 2007 *

  7. Построение графа составляющих Предложение ММЕ • Узел графа: • сама морфема • список предыдущих морфем • список последующих морфем • информация об индексах морфемы • служебная информация (координаты и др.) Граф составляющих * Санкт-Петербург 2007 *

  8. Примеры графа составляющих * Санкт-Петербург 2007 *

  9. Примеры графа составляющих * Санкт-Петербург 2007 *

  10. Примеры графа составляющих * Санкт-Петербург 2007 *

  11. Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур Тестовые данные * Санкт-Петербург 2007 *

  12. Шаблоны-кандидаты • Шаблон-кандидат – последовательность узлов графа составляющих, встречающаяся в достаточном большом числе предложений Обнаружение шаблона-кандидата * Санкт-Петербург 2007 *

  13. Нахождение значимых шаблонов • Значимыйшаблон – шаблон-кандидат, удовлетворяющий определенным статистическим критериям Необходимо построить вероятностные функции для выявления границ значимого шаблона * Санкт-Петербург 2007 *

  14. Построение вероятностных функций * Санкт-Петербург 2007 *

  15. Использование вероятностных функций Формирование матрицы на основе функций Prи Pl вдоль пути S графа составляющих: * Санкт-Петербург 2007 *

  16. Построение вероятностных функций Представление вероятностных функций * Санкт-Петербург 2007 *

  17. Построение вероятностных функций • Построение дополнительных функций для определения скорости падения функций Prи Pl: • Пороговое значение: η = 0.33 * Санкт-Петербург 2007 *

  18. Итоговая оценка шаблона-кандидата Критерий оценки шаблона-кандидата: * Санкт-Петербург 2007 *

  19. Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур Тестовые данные * Санкт-Петербург 2007 *

  20. Выявление классов эквивалентности Класс эквивалентности- набор вершин, которые являются взаимозаменяемыми в данном контексте (класс свободного варьирования) Алгоритм: • определить окно длины L • определить в рамках данного окнаслот • получить шаблон, имеющий префикс, суффикс и класс эквивалентности в позиции слота * Санкт-Петербург 2007 *

  21. … Cindy thinks that George thinks that to read is tough. that the bird is eager to read bothers the dog. Pam thinks that Jim thinks that to read is tough. Pam believes that Cindy thinks that to please is tough. that the cat is easy to read disturbs George. Cindy believes that George thinks that to read is easy. Pam believes that Joe thinks that to please is tough. Cindy believes that Joe believes that to please is easy. Cindy believes that George thinks that to read is easy... Пример класса эквивалентности Отрывок текста корпуса CHILDES: * Санкт-Петербург 2007 *

  22. George Pam Cindy Joe Пример класса эквивалентности that thinks префикс суффикс Класс эквивалентности * Санкт-Петербург 2007 *

  23. Пример класса эквивалентности жила и Катерина получила префикс суффикс Класс эквивалентности * Санкт-Петербург 2007 *

  24. Пример класса эквивалентности интер к по е л м префикс суффикс р Класс эквивалентности * Санкт-Петербург 2007 *

  25. Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур Тестовые данные * Санкт-Петербург 2007 *

  26. Образование новых узлов в графе Образование нового узла P * Санкт-Петербург 2007 *

  27. Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур Тестовые данные * Санкт-Петербург 2007 *

  28. Пример структуры узла (текст из CHILDES) Простой узел * Санкт-Петербург 2007 *

  29. Пример структуры узла (текст из CHILDES) Более сложный узел * Санкт-Петербург 2007 *

  30. Пример структуры узла Простой узел * Санкт-Петербург 2007 *

  31. Пример структуры узла Простой узел * Санкт-Петербург 2007 *

  32. Пример структуры узла Более сложный узел * Санкт-Петербург 2007 *

  33. Тестирование программы на различных текстах • Один из текстов Национального корпуса русского языка из раздела публицистики (1400 слов – 843 уникальных) • Найдено: • 163 класса эквивалентности • 45 значимых шаблонов • Фрагмент текста, представляющего собой слова родителей, обращенные к детям (корпус текстов CHILDES) • (2020 слов – 27 уникальных) • Найдено: • 13 классов эквивалентности • 4 значимых шаблонов * Санкт-Петербург 2007 *

More Related