1 / 25

Компьютерный анализ естественно - языкового текста

Компьютерный анализ естественно - языкового текста. Кафедра информационных систем в искусстве и гуманитарных науках. Компьютерный анализ естественно - языкового текста СТРУКТУРА КУРСА. Введение в дисциплину Автоматический анализ текста на морфологическом уровне

Download Presentation

Компьютерный анализ естественно - языкового текста

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках

  2. Компьютерный анализ естественно-языкового текстаСТРУКТУРА КУРСА • Введение в дисциплину • Автоматический анализ текста на морфологическом уровне • Автоматический анализ текста на синтаксическом уровне • Семантический компонент в системах автоматического анализа текста

  3. Компьютерный анализ естественно-языкового текстаСТРУКТУРА КУРСА • Автоматический анализ текста на синтаксическом уровне • Задачи анализа текста на синтаксическом уровне • Модели представления структуры высказывания • Примеры реализации синтаксического анализа

  4. Компьютерный анализ естественно-языкового текстаСТРУКТУРА КУРСА • Автоматический анализ текста на синтаксическом уровне • Задачи анализа текста на синтаксическом уровне • Модели представления структуры высказывания • Примеры реализации синтаксического анализа

  5. ЗАДАЧИ АНАЛИЗА ТЕКСТА НА СИНТАКСИЧЕСКОМ УРОВНЕ • Задача - построение синтаксического представления текста, т.е. синтаксической структуры • Сфера действия ограничена предложением • На входе – цепочка словоформ с приписанными им грамматическими характеристиками (в том объеме, в котором это позволяет сделать лексико-морфоло-гический анализ и снятие грамматических неоднозначностей) • На выходе полного синтаксического анализа – иерархическая структура (обычно дерево).

  6. МЕСТО СИНТАКСИЧЕСКОГО АНАЛИЗА В ЛИТ

  7. Компьютерный анализ естественно-языкового текстаСТРУКТУРА КУРСА • Автоматический анализ текста на синтаксическом уровне • Задачи анализа текста на синтаксическом уровне • Модели представления структуры высказывания • Примеры реализации синтаксического анализа

  8. ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА

  9. ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА • Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?

  10. ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА • Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться? Мама мыла раму

  11. ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА • Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться? Мама мыла раму

  12. ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА • Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться? Как формально интерпретировать??? Мама мыла раму

  13. ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА • Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться? Первый вариант формального метаязыка: Мама мыла раму

  14. ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА • Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться? Первый вариант формального метаязыка: Структура составляющих (Мама (мыла раму))

  15. ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА • Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться? Первый вариант формального метаязыка: Структура составляющих Мама мыла раму

  16. СТРУКТУРА СОСТАВЛЯЮЩИХнеформальное определение • Составляющие – общее название для отдельных слов и групп в предложении, где группы – это отрезки предложения разной длины, которые объединяют более тесно связанные друг с другом единицы меньшего размера (тоже группы или отдельные слова) (Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку)))

  17. СОСТАВЛЯЮЩИЕ(почти) формальное определение - преамбула • Предложение рассматривается как конечное множество (элемент множества - словоупотребление) с определенным на нем отношением линейного порядка (следование слева направо). Благодаря линейному порядку может быть введено понятие отрезка. • Составляющие определяются в виде системы, т.е. в виде их (составляющих – одиночных слов и групп слов в виде отрезков) множества, на элементы которого накладываются некоторые, чисто формальные, ограничения.

  18. СОСТАВЛЯЮЩИЕ(почти) формальное определение - формулировка • Система составляющих для конечного линейно упорядоченного множества S – это такое множество C отрезков этого множества S, которое удовлетворяет следующим условиям: - SC (само предложение целиком является элементом системы своих составляющих) - wS wC (каждое отдельно взятое словоупотребление в предложении является элементом системы составляющих этого предложения) - α,β, являющихся отрезками предложения S и входящих в C, либо αβ=, либо αβ, либо βα(любые две составляющие некоторого предложения или не пересекаются, или содержатся друг в друге)

  19. РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХмотивировка • В примере ниже: целесообразно отразить то общее, что есть между составляющими {Эти школьники}, {диктант по русскому языку}, {русскому языку} путем отнесения их к одному классу • Ответив на вопрос: какие слова или группы слов (т.е. составляющие) в предложении относятся к одному и тому же грамматическому классу?, можно будет перейти к ответу на вопрос: по каким правилам составляющие одного класса складываются из составляющих других классов? (вопрос собственно о структуре) (Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку)))

  20. РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХформальное определение • Размеченная система составляющих –упорядоченная тройка <C, W, φ>, где C – система составляющих, W – множество меток(список классов, введенных в данной классификации, иначе называемых «фразовые категории»), φ – отображение C в множество всех непустых подмножеств W(список пар «составляющая + метка/метки, приписанные данной составляющей»).

  21. РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХпример 1 (Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку))) S NP VP PP NP AnV NP Det N Adv Aux V N Prep A N

  22. РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХпример 1 (Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку))) S NP VP PP NP AnV NP Det N Adv Aux V N Prep A N

  23. РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХпример 2

  24. РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХпример 3

  25. РЕКОМЕНДОВАННАЯ ЛИТЕРАТУРА • Тестелец Я. Г. Введение в общий синтаксис. М., 2001. (Глава II) • Гладкий А. В. Синтаксические структуры естественного языка в автоматизированных системах общения. М., 1985. (Глава 2)

More Related