1 / 22

Статистический анализ связности текстов по общественно-политической тематике

Статистический анализ связности текстов по общественно-политической тематике. RCDL 20 11 19- 22 октября 20 11 г. ________________________________. к.т.н. Абрамова Н.Н., к.т.н. Абрамов В.Е., Некрасова Е.В, Росс Г.Н. ФГУП «НИЦИ при МИД России» , ЗАО СКБ «ТЭЛКА»

Download Presentation

Статистический анализ связности текстов по общественно-политической тематике

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Статистический анализ связности текстов по общественно-политической тематике RCDL 2011 19- 22 октября 2011 г. ________________________________ к.т.н. Абрамова Н.Н., к.т.н. Абрамов В.Е., Некрасова Е.В, Росс Г.Н. ФГУП «НИЦИ при МИД России», ЗАО СКБ «ТЭЛКА» NAbramova@mid.ru, AbramVal@yandex.ru, ENekrasova@mid.ru, GRoss@mid.ru

  2. Цель работы Исследование законов связности общественно-политических текстов, разработка методов и алгоритмов выявления межфразовых связей с целью усовершенствования технологии реферирования текстов.

  3. Основные понятия Для получения связного текста реферата необходимо анализировать связи между предложениями - межфразовые связи. Согласно законам связности текста, межфразовые связи можно определить через понятие замещения (анафоры), т.е. повторения смысла какого-либо отрезка текста с помощью особых языковых средств. Заместители или показатели связи – это слова и словосочетания, обозначающие понятия, повторяющиеся в тексте, Замещаемое (антецедент) – это обозначение того же понятия в предшествующем предложении. Между замещаемым и заместителем существует анафорическая связь. Сами заместители могут выступать как антецеденты по отношению к своим заместителям. Существует много способов выражения анафорических связей. Различают лексическую и местоименную анафору.

  4. Типы замещения в текстах Буквальный повтор - совпадение замещаемого и заместителя с точностью до словоформ. Морфо-синтаксический повтор - совпадение происходит с точностью до словообразования (например, «консульство» - «консульский») или на уровне опорных слов, определители которых могут трансформироваться (например, «журналисткое расследование» – «расследование журналиста»). Синонимия, вызванная изменением состава слов и словосочетаний антецедента и заместителя («безвизовый режим» - «полная отмена виз»), или аббревиацией или сокращением слов («Содружество независимых государств» – «СНГ», «генеральное консульство» – «генконсульство»). Гипонимия («информационная безопасность» – «международная информационная безопасность») и гиперонимия («заместитель министра» – «руководство министерства»). Эллипсис – повторение смысла с некоторыми опущенными элементами, не сводимого к отношению род-вид («Комиссия по правам человека» - «Комиссия»). Местоименная анафора – замена слова или словосочетания предшествующего предложения замещающими его местоимениями (личными - «он», «она», «они», «его»…; указательными – «это», «то»,..; относительными – «который», «где», «что», …) или местоименными наречиями («куда», «там», «туда»,…). Вводные слова, наречия и союзы («таким образом», «в связи с изложенным», «выше», «далее», «поэтому», ...).

  5. Современное состояние проблемы Методы разрешения анафоры описаны в работах Е. Рича, Д. Карбонеллы, Р. Брауна, С. Рико Перез, Ш. Лаппина, Г. Лисса . Г.Хирста, Р.Миткова и М.Поэсио. Современные подходы базируются на интегрируемой модели разрешения анафоры, использующей комбинацию традиционных лингвистических методов с новым статистическим подходом. Подход Ермакова А.Е. используется для решения задачи извлечения фактографической информации из текстовых документов особого стиля (биографий, протоколов, сводок и т.д.). Метод Толпегина П. В. предназначен для автоматического разрешения анафоры личных местоимений третьего лица на основе методов машинного обучения.

  6. Исходные данные для анализа Всего было обработано 105 текстов общим объемом 319 Кб.

  7. Пример установления межфразовых связей

  8. Распределение частот встречаемости различных типов связей в общественно-политических текстах

  9. Частота встречаемости различных типов связей в общественно-политических текстах

  10. Автоматическое разрешение местоименной анафоры Цель работы:разработать алгоритм выявления межфразовых местоименных анафорических связей. Основные ограничения: 1. Между анафорой и антецедентом имеется явная кореферентность. Анафорическое местоимение обозначает один и тот же объект действительности (имеет один и тот же референт). 2. Случаи катафоры не анализируются: Когда бортпроводники преградили ему дорогу, Гаев набросился на них. 3. Предполагается, что в тексте нет референциальных конфликтов (неоднозначностей), т.е. для каждого референта существует только один антецедент. Пример конфликта: Сотрудник выполнил свою работу. Затем его вызвал начальник отдела . Он изложил план работы на ближайшее время. 4. Предсказуемость антецедента зависит от “референциального расстояния”, поэтому кореферентным считается ближайший по тексту антецедент.

  11. Метод распознавания межфразовых местоименных анафор Этап 1. Выявление предложений текста, подлежащих анализу на предмет обнаружения анафор. Этап 2. Выявление слов, грамматически не связанных с членами предложения, т.е. вводных слов, вставных предложений и оборотов. Этап 3.Определение вида предложения: простое, сложноеили предложение с прямой речью. Этап 4.Определение межфразовых местоименных анафорических связей.

  12. Входная информация • Исходный текст, каждая словоформа которого сопровождается: • сведениями о ее месторасположении (номере предложения, в котором она • находится, порядковом номере в этом предложении); • признаком буквы, с которой она начинается (большая или маленькая); • набором грамматической информации (часть речи, род, число, падеж и т.д.). 1#3#1#по 00/156/03 2#3#0#поступающей 02/105/10/32333536 3#3#0#информации 01/061/10/1213162124 4#3#0#, 00/2000/01 5#3#0#23 00/2000/01 6#3#0#марта 01/001/01/12 7#3#0#примерно 00/152/01 8#3#0#в 00/164/046 9#3#0#15 00/2000/01 10#3#0#. 00/2000/01 11#3#0#00 00/2000/01 12#3#0#по 00/156/03 13#3#0#местному 03/103/01/1323 14#3#0#времени 01/076/01/121316 15#3#0#в 00/164/046 16#3#1#районе 01/001/01/16 17#3#0#автовокзала 01/125/10/3 18#3#0#в 00/164/046 19#3#1#иерусалиме 01/001/01/16 20#3#0#было 01/125/10/2 21#3#0#приведено 00/147/01 22#3#0#в 00/164/046 23#3#0#действие 01/073/10/1114 24#3#0#самодельное 02/103/01/2124 25#3#0#взрывное 02/107/01/2124 26#3#0#устройство 01/070/01/1114 27#3#0#. 00/2000/01

  13. Принципы выявления предложений для анализа межфразовых связей В предложении встретилось хотя бы одно слово с признаком местоименности. Найденное слово должно распознаваться в словаре личных, указательных и притяжательных местоимений и уточняющих прилагательных (он, этот, тот, его, им, указанный, данный, последний и т.д.). Распознанное в словаре слово не должно входить во «временные» словосочетания, например, «этой неделе», «тот же год», «этот месяц» и т.д. Указательное местоимение тот (во всех падежах) не должно использоваться для связи в сложном предложении ( «в том, что…», «в том случае, если», «до того, как» и т.п.). Предложение оставляется для дальнейшего анализа, если в него не входят слова, указанные в пунктах 3 и 4.

  14. Выявление в предложении вводных конструкций • Учет особенностей расположения и пунктуационного оформления вводных конструкций: • вводные слова и обороты находятся в начале предложения и выделяются на письме запятыми: либо справа, либо с двух сторон (пример: Вместе с тем, французские журналисты выяснили, что ее зовут Нафиссатоу Диалло); • вставные элементы заключаются в круглые, квадратные или косые скобки (пример: Вместе эти страны располагают огромной ресурсной базой, самыми большими трудовыми резервами, большими внутренними рынками (общая численность населения стран БРИКС – 2,939 миллиарда человек). • 2. Распознавание вводных конструкций с помощью словаря вводных слов и словаря оборотов. • 3. Вставные элементы не могут быть средством межфразовой связи. • 4. Вводные слова и обороты могут быть средством межфразовой связи, если включают в себя местоимения или уточняющие прилагательные (например, «по его словам», «в связи с вышеизложенным»). Для выявления этой связи проводился поиск местоимений и уточняющих прилагательных в словаре личных,указательных и притяжательных местоименийиуточняющих прилагательных (он, этот, тот, его, им, указанный, данный, последний и т.д.). • 5. Вводные слова и обороты, не содержащие местоимений и уточняющих прилагательных, а также вставные элементы не учитываются при дальнейшем анализе.

  15. Определение вида предложения • Вид предложения определяется на основе анализа синтаксической структуры предложения. • Опорные слова структуры - это слова, относящиеся к грамматическим классам глаголов, кратких причастий и кратких прилагательных с признаком отглагольности. К классу глаголов относятся: глаголы в личной форме, глаголы прошедшего времени, инфинитив, модальный глагол. • Признаки простого предложения: • отсутствуют глаголы; • имеется только один глагол или группа рядом стоящих глаголов; • имеется несколько глаголов, связанных сочинительными союзами, перед которыми не стоит знак препинания; • имеется несколько глаголов, не разделенных знаками препинания. • Граница простого предложения проходит по знакам препинания, непосредственно предшествующим опорным словам, при условии нахождения слева от знака препинания хотя бы одного опорного слова. • Сложные предложения расчленяются на простые, но для анализа выбираются только два первых простых предложения из состава сложного.

  16. Распознавание прямой речи • Анализируются конструкции четырех типов: • Прямая речь после слов автора. Пример: Он спросил: «Что ты делаешь?». • Прямая речь перед словами автора.. Пример: «Что ты делаешь?» - спросил он. • Прямая речь прерывается словами автора. Признаком ее являются внешние открывающиеся и закрывающиеся кавычки и наличие внутри комбинаций двух «тире», «запятой» или «точки». Пример: «Что ты делаешь вечером? - спросил он, - я хочу к тебе придти.» или «Что ты делаешь вечером? - спросил он. - Я хочу к тебе придти.» • Прямая речь стоит внутри авторских слов. Она распознается по признакам первого шаблона с той лишь разницей, что после закрывающихся кавычек авторские слова продолжаются после «тире». Пример: Он спросил: «К вам можно?» - и вошел в комнату.

  17. Выявление анафор в простом предложении Последовательно выбираются слова с признаками местоименности от начала до границы предложения (за исключением местоимений, входящих во вводные конструкции, обороты и «временные» словосочетания) и ищутся в словаре личных, указательных и притяжательных местоимений и уточняющих прилагательных . Далее анализ проводится согласно следующим принципам: 1. Местоименная анафора отсутствует, если встречается местоимение «это», непосредственно перед которым стоит тире :«БРИКС – это площадка для диалога». 2. Если местоимение входит в именную группу, состоящую из однородных членов предложения, связанных союзами «и»/»или» (например, «министры и их постоянные представители», «ООН и ее работники»), то межфразовой связи нет. 3. Если местоимение не входит в именную группу и находится не далее третьего места от начала предложения, то существует межфразовая связь: По ее итогам было принято совместное коммюнике. 4. Межфразовая связь отсутствует, если слева от местоимения стоит согласованное с ним в роде и числе существительное (субстантивированное прилагательное): На странице юноши (м.р., ед.ч.) размещены также его (м. р., ед. ч.) фотографии. 5. Межфразовая связь существует, если слева от местоимения нет согласованных с ним в роде и числе существительных: Содержание (ср.р., ед.ч.) радиоактивных веществ (мн.,ч.) в ней(ж.р., ед.ч.) составляет около 1,9 беккерелей на кубический сантиметр.

  18. Принципы выявления анафор в сложных предложениях В сложных предложениях всех видов (с сочинительной и подчинительной связью и бессоюзных) анализируются только два первых простых предложения. Первая часть сложного предложения анализируется согласно принципам 1 – 5, как обычное простое предложение (предыдущий слайд). При этом, если межфразовая связь не выявляется в первом предложении, то поиск ее должен быть продолжен во втором предложении. Во второй части сложного предложения сначала ищутся личные и притяжательные местоимения. Если слева от местоимения стоит согласованное с ним в роде и числе существительное (субстантивированное прилагательное), то считается, что межфразовая связь отсутствует. Если такое существительное не находится, то его поиск продолжается в первой части предложения, начиная от конца.

  19. Принципы выявления анафор в сложных предложениях 4. Межфразовая связь отсутствует, если слева от знака препинания, разделяющего простые предложения, стоит существительное (субстантивированное прилагательное), согласованное в роде и числе с найденным во второй части местоимением. Главный редактор агентства Reuters СтивенАдлер(м.р., ед.ч.)сообщил , что он(м.р., ед.ч.)связался с сирийскими властями с просьбой о помощи в поиске пропавших коллег. 5. Межфразовая связь существует, если слева от знака препинания, разделяющего простые предложения, нет существительных, согласованных в роде и числе с найденным во второй части местоимением, или встречается дейктическое местоимение («я», «мы», «ты», «вы»). Думаю, что они должны активно подключиться к выработке оптимального курса, по которому пойдет БРИКС. 6. Межфразовая связь существует, если во второй части сложного предложения отсутствуют личные и притяжательные местоимения, но есть указательное местоимение («этот», «тот», «такой»). Маркин сообщил, что эти решения Генпрокуратуры будут обжалованы….

  20. Оценка работыалгоритма Тестирование проводилось на случайной выборке из 30 текстов. В каждом документе определялась количество найденных и правильно определенных межфразовых связей. Отношение числа правильно определенных связей к количеству всех найденных межфразовых связей, выраженное в процентах, - точность алгоритма. Она составила ~80%.

  21. С п а с и б о з а в н и м а н и е!

More Related