1 / 29

Географическая индексация данных в электронных библиотеках для организации географического поиска

Институт вычислительных технологий СО РАН. Географическая индексация данных в электронных библиотеках для организации географического поиска. Скачков Д. М. , Жижимов О. Л. Электронные библиотеки и географическая информация.

peggy
Download Presentation

Географическая индексация данных в электронных библиотеках для организации географического поиска

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Институт вычислительных технологий СО РАН Географическая индексация данных в электронных библиотеках для организации географического поиска Скачков Д. М., Жижимов О. Л.

  2. Электронные библиотеки и географическая информация • Электронные библиотеки изначально не были предназначены для работы с географической информацией, в том числе и для географического поиска • Тот факт, что эти системы не были предназначены для работы с географической информацией, еще не говорит, что эта информация там не содержится.Любая статья была где-то написана и опубликована, а тексты зачастую содержат названия географических объектов.

  3. Пример

  4. Использование географической информации затруднено • На данный момент полностью использовать содержащийся в таких системах географический аспект не получится, поскольку, в соответствии с правилами каталогизации (Dublin Core, RUSMARC, МЕКОФ и др.), географическая информация хранится в текстовых полях и пригодна только для простейшего текстового поиска по географическому названию. • Удобнее было бы искать так:

  5. Существующие решения • GeoNetwork(http://geonetwork-opensource.org/) • Среда интеграции пространственных данных «ГеоМета» (http://www.geometa.ru/) • MultiMeta- Система интеграции пространственных данных и ресурсов электронных библиотек (http://ceur-ws.org/Vol-803/paper4.pdf) • Но библиотека изначально должна использовать такую систему. Чтобы использовать старые массивы информации, их необходимо конвертировать и дополнить географическими координатами.

  6. Подходы к географическому поиску • Поиск с помощью атрибутивного и полнотекстового поиска по географическому названию. • Поиск с использованием координат, непосредственно заданных в записях информационной системы (характерно для ГИС). • Поиск с помощью метапоисковой машины, использующей: • специализированный справочник (тезаурус) географических названий; • тезаурус географических названий и промежуточную БД связи, организованную с использованием ссылок на записи тезауруса географических названий. Метапоисковая машина– поисковая система, не имеющая собственной базы данных и поискового индекса, и формирующая поисковую выдачу из результатов поиска других поисковых систем. Информационно-поисковый тезаурус– контролируемый словарь терминов на естественном языке, явно указывающий отношения между терминами и предназначенный для информационного поиска.

  7. Атрибутивный и полнотекстовый поиск

  8. Поиск с использованием географического индекса

  9. Недостатки первых двух способов • Полнотекстовый поиск предполагает составление пользователем списка всех географических объектов, лежащих в географическом регионе поиска. С учётом их исторических изменений, альтернативных названий, названия исчезнувших объектов. • Использование поиска с использованием географического индекса подразумевает реализацию ГИС функциональности во всех существующих системах. • Не все хранилища данных, на которых построены существующие информационные системы содержат функциональность по обработке и использованию географических координат. • Необходимая поисковая логика должна быть реализована во всех целевых информационных системах по отдельности. Реализация такой логики потребует существенных изменений в структуре информационной системы.

  10. Поиск с использованием метапоисковой машины и тезауруса географических названий

  11. Поиск с использованием метапоисковой машины и технологической БД

  12. Требования к информационной системе • Для организации поиска способом 3.1) информационная система должна удовлетворять следующим требованиям: • должна поддерживать поиск данных по протоколу Z39.50 (обязательный синтаксис запросов RPN-1); • атрибуты, в которых может содержаться географическая информация, должны быть доступны для поиска. • Для организации поиска способом 3b) информационная система должна удовлетворять следующим требованиям: • должна поддерживать поиск данных по протоколу Z39.50 (обязательный синтаксис запросов RPN-1); • атрибуты, в которых может содержаться географическая информация, должны быть доступны для поиска; • идентификаторы записей информационной системы должны быть доступны для поиска; • если информационная система содержит внутренний географический индекс, то он также должен быть доступен для поиска.

  13. Тезаурус • Каким должен быть тезаурус для использования в задаче географического поиска в «негеографических» информационных системах

  14. Геокодирование и ретроспективное геокодирование • Информация, хранящаяся в информационных системах относится к прошлому. Поэтому необходимо учитывать изменение свойств географических объектов с течением времени: • Геокодирование - перевод из терминов географических названий в термины географических координат. • Обратное геокодирование - перевод из терминов географических координат в термины географических названий. • Ретроспективное геокодирование - перевод из терминов географических названий в термины географических координат с учетом исторических изменений свойств географических объектов.

  15. Изменение геометрии географических объектов

  16. Доступ к данным тезауруса • Наиболее удобно организовать доступ к тезаурусу по протоколу Z39.50 • Для организации доступа по Z39.50 описывается профиль доступа, определяющий набор поисковых атрибутов.

  17. Пример поисковых запросов • Пример поисковых запросов: • Географические объекты в указанном географическом регионе в определенный временной период @and @and @attr 1=2059 @attrcip 2=7 @attrcip 4=202 {((53.3590,75.2152),(57.2273,85.1248))} @attr 1=2074 @attr 2=16 @attrcip 4=210 {2001-10-12} @attr 1=2075 @attr 2=16 @attrcip 4=210 {2007-01-10} • Географические объекты на территории Новосибирской области в указанном временном периоде @and@and @attr1=2 @attr 2=3 @attr 4=108 {Новосибирская область} @attr1=2072 @attr 2=16 @attrcip 4=210 {2001-10-12} @attr1=2073 @attr 2=16 @attrcip 4=210 {2007-01-10}

  18. Метапоисковая машина • Основная идея использования метапоисковой машины в преобразовании запроса, содержащего географическую компоненту, в запрос, не содержащий географическую компоненту, чтобы он мог быть обработан целевой информационной системой. Два способа построения метапоисковой машины, определяют, каким образом будет изменён оригинальный поисковый запрос.

  19. Поиск с использованием метапоисковой машины и тезауруса географических названий

  20. Пример преобразования запроса @attr 1=4 @attr 2=7 @attr 4=202 {((52.2, 80.1), (55, 81.0))} @and @and @and @and @and… @attr 1=4 @attr 2=3 @attr 4=1 {Баевский район} @attr 1=4 @attr 2=3 @attr 4=1 {Баевского района} @attr 1=4 @attr 2=3 @attr 4=1 {Баевскому району} @attr 1=4 @attr 2=3 @attr 4=1 {Баевском районе} @attr 1=4 @attr 2=3 @attr 4=1 {Панкрушиха} @attr1=4 @attr 2=3 @attr 4=1 {Панкрушихе} @attr1=4 @attr 2=3 @attr 4=1 {Панкрушихи} @attr 1=4 @attr 2=3 @attr 4=1 {Родино} …

  21. Поиск с использованием метапоисковой машины и технологической БД

  22. Пример преобразования запроса @attr 1=4 @attr 2=7 @attr 4=202 {((52.2, 80.1), (55, 81.0))} @and @and @and … @attr 1=28 @attr 2=3 @attr 4=107 {8} @attr 1=28 @attr 2=3 @attr 4=107 {11} @attr 1=28 @attr 2=3 @attr 4=107 {17} @attr 1=28 @attr 2=3 @attr 4=107 {18} @attr 1=28 @attr 2=3 @attr 4=107 {20} …

  23. Технологическая БД • Технологическая база данных содержит таблицы индексов, связывающие записи тезауруса и записи информационной системы • Каждой таблице целевой системы, в которой необходим географический поиск, ставится в соответствие таблица индексов в технологической базе данных

  24. Структура технологической БД

  25. ZooSPACE • На данный момент активно ведётся разработка платформы ZooSPACE, которая позволит объединять различные информационные системы (электронные библиотеки в том числе) в единое виртуальное информационное пространство • Работа выполняется при финансовой поддержке Министерства образования и науки Российской Федерации (грант № «07.514.11.4130») • Более подробно: Круглый стол «ZooSPACE – платформа интеграции разнородных распределенных данных» Четверг, 13 июня, 11:20 - Конференц-зал «Таврия»

  26. Интеграция с ZooSPACE

  27. Фрагмент результатов поиска

  28. Заключение • Рассмотрено построение, заполнение и использование технологической базы данных для организации географического поиска в электронных библиотеках. Индексация производится на основе данных тезауруса ретроспективного геокодирования. • Разработана технология организации географического поиска информации в электронных библиотеках с использованием тезауруса ретроспективного геокодирования. • Реализован прототип системы, иллюстрирующий технологический подход к организации географического поиска информации в электронных библиотеках.

  29. Благодарю за внимание!

More Related