180 likes | 351 Views
Электронная Казань, 27-28 апреля 2009 года. Информационный поиск с использованием татарской морфологии. Сулейманов Д.Ш., Невзорова О.А., Гатиатуллин А.Р., Гильмуллин Р.А. Электронная Казань. Университетская информационная система РОССИЯ (УИС РОССИЯ )
E N D
Электронная Казань, 27-28 апреля 2009 года Информационный поиск с использованием татарской морфологии Сулейманов Д.Ш., Невзорова О.А., Гатиатуллин А.Р., Гильмуллин Р.А.
Электронная Казань Университетская информационная система РОССИЯ (УИС РОССИЯ) создана как ресурсная база Российского университетского информационно-исследовательского консорциума по социальным и гуманитарным наукам (Russian inter-University Social Sciences Information and Analytical consortium - RUSSIA Consortium). Предназначена для проведения исследований по социальным наукам и открыта для коллективного доступа ученым и исследователям из университетов РФ http://www.cir.ru
Электронная Казань • Проект направлен на разработку прикладной двухуровневой компьютерной модели татарского языка и применение ее в интеллектуальных технологиях информационного поиска в корпусах многоязыковых текстов. • Решение задачи интеллектуального информационного поиска требует создания: • полной морфологической модели татарского языка, • прагматически-ориентированной синтаксической модели татарского языка. • Эти модели будут использованы для адаптации механизмов информационного поиска Университетской информационной системы РОССИЯ, базирующихся на терминологическом и лексическом поисковых индексах.
Электронная Казань • Решаются следующие задачи интеграции разнородных информационных ресурсов: • обеспечение единообразного формата хранения документов разных источников; • единообразные способы доступа ко всей коллекции документов; • использование специфических поисковых атрибутов для каждой коллекции; • тематическая систематизация /классификация документов по тезаурусу, рубрикаторам; • аннотирование полнотекстовых документов; • создание предметно-ориентированных баз данных, интегрированных в общую систему.
Электронная Казань Этапы автоматизированной лингвистической обработки текстов (АЛОТ): - Морфологический анализ; - Терминологический анализ; - Рубрицирование; - Аннотирование. В ходе морфологического анализа русскоязычного текста всем словам анализируемого текста сопоставляются леммы с соответствующей грамматической информацией (род, число, падеж, категория одушевленности и т.п.). Размер используемого морфологического словаря - 130 тысяч лемм. В сочетании с простыми словарями, описывающими словообразование, это обеспечивает более чем 99.6% покрытие текстов российских правовых актов и материалов СМИ.
Электронная Казань • Подготовка больших электронных корпусов текстов по социально-экономической тематике (более 70 Мб). • Разработка специализированных лингвистических ресурсов на татарском языке: • морфологический словарь татарского языка (объем 50000 словарных статей)
Электронная Казань Статистические данные электронной коллекции текстов на русском и татарском языках по рубрикам
Электронная Казань Модуль графематического анализа татарских текстов • Фрагментация исходного текстового файла на предложения • Разбиение каждого предложения на слова, числа, знаки пунктуации, формулы и другие базовые текстовые единицы и представление выходной информации в следующем формате: • лексема тип лексемы (число) № номер впредложении № предложения Выделяемые типы лексем: 1 – слово; 2 – аббревиатура; 3 – метка; 4 – формула; 5 – знак пунктуации; 6 – число; 7 – ФИО; 8 – имя собственное; 9 – комментарий; 10 – сокращение; 11 – стандартное сокращение; 12 – дата; 13 – email; 14 – http(www) гиперссылка
Электронная Казань Морфологический анализатор татарского языка • Информационная база двухуровневого морфологического анализатора: • Файл правил - алфавит и фонологические правила (правила преобразования лексических символов в поверхностные символы в различных контекстных окружениях). • 2. Лексикон - словарь лексических единиц (корневых и аффиксальных морфем) и их толкования, а также описания морфотактических правил.
Файл морфотактических правил Файл фонологических правил урман+ДА лес+Локатив урманда в лесу ГЕНЕРАТОР урманда в лесу урман+ДА лес+Локатив РАСПОЗНАВАТЕЛЬ Структурно-функциональная схема ДМА татарского языка Электронная Казань
Электронная Казань Диаграмма для номинативных парадигм
Электронная Казань Описание фрагмента значений словоизменительных и словообразовательных морфем
Электронная Казань Таблица перевода интерфейса
Электронная Казань Спасибо за внимание