100 likes | 313 Views
Спецкурс СДМ 01. Технологии специализированных баз данных для вебометрических исследований. Печников Андрей Анатольевич. http://www.apmath.spbu.ru/ru/staff/pechnikov_aa /. http :// mathem.krc.karelia.ru/member.php?id=37&plang=r. Лекции, часть 1: 27 февраля, 28 февраля, 02 марта.
E N D
Спецкурс СДМ 01. Технологии специализированных баз данных для вебометрических исследований Печников Андрей Анатольевич http://www.apmath.spbu.ru/ru/staff/pechnikov_aa/ http://mathem.krc.karelia.ru/member.php?id=37&plang=r
Лекции, часть 1: 27 февраля, 28 февраля, 02 марта Лекции часть 2: 4-я, 5-я,.... И экзамен – в апреле-мае Экзамен! Требования: 100% посещаемость - отлично У меня работа (встреча с руководителем, бассейн, - не катит) • Варианты ликвидации задолженностей: • написать маленькую программку по теме, • сделать перевод небольшой статьи, • «показаться» (Катаев В. Сын полка. «...стало быть, ты им не показался.... раз они тебя не захотели принять за сына...»). Emergence is one of the key features of the Web—whether it is the emergence of the‘blogosphere’ or the appearance of Wikipedia, the increasing linking of scientific data or socialnetworks..... Emergence – появление, феномен, пРоявление, «показаться»
изобретатель понятия «гипертекст», 1965 Advanced Research Projects Agency , 1957 – начало, 1969 - сеть ARPANET изобретатели Веба, 1989 ввели термин «webometrics», 1997 Google, 1998 Измерили диаметр Веба, 1999
Веб Всеми́рная паути́на (англ. World Wide Web) — распределенная система, предоставляющая доступ к связанным между собой документам, расположенным на различных компьютерах, подключенных к Интернету. Для обозначения Всемирной паутины также используют слово веб (англ. web «паутина») и аббревиатуру WWW. (Википедия) http://www.w3.org/History/1989/proposal-msw.html
«Вебометрика» (webometrics) - раздел информатики, в рамках которого исследуются количественные аспекты конструирования и использования информационных ресурсов, структур и технологий применительно к Вебу (World Wide Web). Как минимум четыре основных направления исследований: • Сбор данных о Веб (роботы, краулеры, поисковые машины, информационный поиск ...), • Веб-индикаторы (индексы цитирования, наблюдаемость сайтов ...), • Анализ гиперссылок (в частности, связи между сайтами вузов и научных организаций ...), • Социальные феномены в Веб (социальные сети, сообщества сайтов ...).
В последнее время в рамках вебометрики стало тесновато, вовремя подоспел журнал Discussion Meeting Issue ‘Web science: a new frontier’ http://rsta.royalsocietypublishing.org/content/current
14 млрд веб-страниц 190 млн веб-сайтов
4 принципа Barabási 1. scale-free 2. small world 3. preferential attachment 4. fitness • Безмасштабная сеть (scale-free) • Закон распределения степеней вершин – дискретный степенной закон (power law),
2. Малый мир (small world, я бы сказал «тесный мир») Цит. Барабаши: «A second important organizing principle is the small world property, which says that two nodesare likely to be connected, even in such a very large and sparse scale-free network as theWeb, bya relatively short path of nodes—in the case of theWeb, the path length is about 19» 3. Предпочтительность установления связей (preferential attachment) Новый документ более вероятно будет иметь ссылку на такой уже существующий документ, на который уже есть много ссылок. 4. Пригодность (fitness - адекватность, соответствие) связей Цит. Барабаши: «But we know from the Web that this is not the onlyfactor, as large hubs, such as Google and Facebook, have appeared relatively late in its history.» Например, вероятность появления ссылки на данную вершину после обнаружения её в соответствии с п.3.