1 / 18

Информационный поиск с использованием татарской морфологии

Электронная Казань, 27-28 апреля 2009 года. Информационный поиск с использованием татарской морфологии. Сулейманов Д.Ш., Невзорова О.А., Гатиатуллин А.Р., Гильмуллин Р.А. Электронная Казань. Университетская информационная система РОССИЯ (УИС РОССИЯ )

hastin
Download Presentation

Информационный поиск с использованием татарской морфологии

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Электронная Казань, 27-28 апреля 2009 года Информационный поиск с использованием татарской морфологии Сулейманов Д.Ш., Невзорова О.А., Гатиатуллин А.Р., Гильмуллин Р.А.

  2. Электронная Казань Университетская информационная система РОССИЯ (УИС РОССИЯ) создана как ресурсная база Российского университетского информационно-исследовательского консорциума по социальным и гуманитарным наукам (Russian inter-University Social Sciences Information and Analytical consortium - RUSSIA Consortium). Предназначена для проведения исследований по социальным наукам и открыта для коллективного доступа ученым и исследователям из университетов РФ http://www.cir.ru

  3. Электронная Казань • Проект направлен на разработку прикладной двухуровневой компьютерной модели татарского языка и применение ее в интеллектуальных технологиях информационного поиска в корпусах многоязыковых текстов. • Решение задачи интеллектуального информационного поиска требует создания: • полной морфологической модели татарского языка, • прагматически-ориентированной синтаксической модели татарского языка. • Эти модели будут использованы для адаптации механизмов информационного поиска Университетской информационной системы РОССИЯ, базирующихся на терминологическом и лексическом поисковых индексах.

  4. Электронная Казань

  5. Электронная Казань • Решаются следующие задачи интеграции разнородных информационных ресурсов: • обеспечение единообразного формата хранения документов разных источников; • единообразные способы доступа ко всей коллекции документов; • использование специфических поисковых атрибутов для каждой коллекции; • тематическая систематизация /классификация документов по тезаурусу, рубрикаторам; • аннотирование полнотекстовых документов; • создание предметно-ориентированных баз данных, интегрированных в общую систему.

  6. Электронная Казань

  7. Электронная Казань Этапы автоматизированной лингвистической обработки текстов (АЛОТ): - Морфологический анализ; - Терминологический анализ; - Рубрицирование; - Аннотирование. В ходе морфологического анализа русскоязычного текста всем словам анализируемого текста сопоставляются леммы с соответствующей грамматической информацией (род, число, падеж, категория одушевленности и т.п.). Размер используемого морфологического словаря - 130 тысяч лемм. В сочетании с простыми словарями, описывающими словообразование, это обеспечивает более чем 99.6% покрытие текстов российских правовых актов и материалов СМИ.

  8. Электронная Казань • Подготовка больших электронных корпусов текстов по социально-экономической тематике (более 70 Мб). • Разработка специализированных лингвистических ресурсов на татарском языке: • морфологический словарь татарского языка (объем 50000 словарных статей)

  9. Электронная Казань Статистические данные электронной коллекции текстов на русском и татарском языках по рубрикам

  10. Электронная Казань Модуль графематического анализа татарских текстов • Фрагментация исходного текстового файла на предложения • Разбиение каждого предложения на слова, числа, знаки пунктуации, формулы и другие базовые текстовые единицы и представление выходной информации в следующем формате: • лексема тип лексемы (число) № номер впредложении № предложения Выделяемые типы лексем: 1 – слово; 2 – аббревиатура; 3 – метка; 4 – формула; 5 – знак пунктуации; 6 – число; 7 – ФИО; 8 – имя собственное; 9 – комментарий; 10 – сокращение; 11 – стандартное сокращение; 12 – дата; 13 – email; 14 – http(www) гиперссылка

  11. Электронная Казань Морфологический анализатор татарского языка • Информационная база двухуровневого морфологического анализатора: • Файл правил - алфавит и фонологические правила (правила преобразования лексических символов в поверхностные символы в различных контекстных окружениях). • 2. Лексикон - словарь лексических единиц (корневых и аффиксальных морфем) и их толкования, а также описания морфотактических правил.

  12. Файл морфотактических правил Файл фонологических правил урман+ДА лес+Локатив урманда в лесу ГЕНЕРАТОР урманда в лесу урман+ДА лес+Локатив РАСПОЗНАВАТЕЛЬ Структурно-функциональная схема ДМА татарского языка Электронная Казань

  13. Электронная Казань Диаграмма для номинативных парадигм

  14. Электронная Казань Описание фрагмента значений словоизменительных и словообразовательных морфем

  15. Электронная Казань

  16. Электронная Казань

  17. Электронная Казань Таблица перевода интерфейса

  18. Электронная Казань Спасибо за внимание

More Related