70 likes | 259 Views
АЛГОРИТМ КРАУЛИНГА S.C.E.N.T. Докладчик – Сотник Сергей Леонидович serhiy@sotnyk.com Iveonik Systems, Днепродзержинск. Краулинг и краулеры. World Wide Web. Планировщик закачек. Многопоточный загрузчик. Хранилище (индекс). Очередь ссылок. Актуальность информации. Документы
E N D
АЛГОРИТМ КРАУЛИНГА S.C.E.N.T. Докладчик – Сотник Сергей Леонидович serhiy@sotnyk.com Iveonik Systems, Днепродзержинск
Краулинг и краулеры World Wide Web Планировщик закачек Многопоточный загрузчик Хранилище (индекс) Очередь ссылок
Актуальность информации Документы в локальном хранилище Документы на сайте Краулер Ценность документа в хранилище: Общая ценность индекса сайта j: Ограниченный ресурс - время: Задача оптимизации краулинга:
S.C.E.N.T. – «запах» в псевдокоде void CrawlerIteration() { List<Page> pages = GetPagesFromDB().SortByScent(); for(int i=0; i<PagesForProcessing; ++i) { pages[i].Scent /= 2; pages[i].Scent += CalcInfo(CheckPage(pages[i])); } foreach(Page page in pages) { page.Scent += DeltaS; } } double CalcInfo(int differenceInBytes) { return Math.Log(page.Size + 1); } • Параметры настройки: • DeltaS • CalcInfo (характер оценивающей функции)
Работа алгоритма на модели сайта Сайт – 10000 документов, Размер документов – 100 байт … 1 МБ Статических документов – 90% Количество добытой информации Краулер обходит по 500 документов за один цикл обработки сайта Номера посещений