110 likes | 286 Views
Расширение представления документов при поиске в Веб. Владимир Иванов, Игорь Некрестьянов, Надежда Пантелеева Санкт-Петербургский Государственный Университет http://ir.apmath.spbu.ru. Методы представления документов в ИПС. Цели работы.
E N D
Расширение представления документов при поиске в Веб Владимир Иванов, Игорь Некрестьянов, Надежда Пантелеева Санкт-Петербургский Государственный Университет http://ir.apmath.spbu.ru
Цели работы • Помогает ли расширение представления повысить качество поиска? • Какие объективные характеристики обуславливают улучшение?
Методы расширения Веб-документов • Base (одна Веб-страница) • SameDirectory (Веб-страница и ее соседи в рамках директории) • SameServer (Веб-страница и ее соседи в рамках Веб-сервера) • Greedy (Веб-страница и все ее соседи)
Влияние на классификацию Методы: • Tfidf • Probabalistic Indexing (prind) • NaiveBayes (NB) • Support Vector Machine (SVM) Критерий качества классификации: Accuracy = Ncorrect / Nincorrect * 100 %
Наборы данных Dataset50 – набор 50 категорий из каталога List.Ru по 100 документов в каждой категории
Расширение представления повышает качество поиска
Изменение объективных характеристик
Обучение и тестирование на разных представлениях