1 / 2

Extraire des « agrégats » de documents sur le web et analyser leurs propriétés topologiques

Objectifs théoriques et expérimentaux . Coupe géologique du web. Web de surface – les sites les plus connectés qui assurent au web son unité et ses distances réduites, les points d’entrée classiques (black list : Amazon, Microsoft, Google…). Extraire des « agrégats » de

xia
Download Presentation

Extraire des « agrégats » de documents sur le web et analyser leurs propriétés topologiques

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Objectifs théoriques et expérimentaux Coupe géologique du web Web de surface – les sites les plus connectés qui assurent au web son unité et ses distances réduites, les points d’entrée classiques (black list : Amazon, Microsoft, Google…) Extraire des « agrégats » de documents sur le web et analyser leurs propriétés topologiques Une série de travaux théoriques reposent sur la modélisation du web comme un graphe dans lequel les pages et/ou les sites sont des nœuds et les liens hypertextes les arcs. Le graphe peut être orienté ou non. Le « web as a graph » a permis depuis 1997 de produire des hypothèses sur sa possible « géographie » (théorie du nœud papillon, « deep-web »), son diamètre, sa structuration topologique, sa « taille » ou l’estimation des son « taux de couverture » par les moteurs de recherche. C’est dans cette perspective que plusieurs algorithmes ont été produits, certains purement topologiques (HITS, ARC, CLEVER, SALSA), d’autres servant seulement à corréler une analyse de contenus (GOOGLE et son PageRank). De nombreuses équipes dans le monde travaillent sur le sujet avec différentes méthodes. Jon KLEINBERG, l’un des pères de la « théorie des agrégats » estime leur nombre à 100.000 en 1998. 1 Agrégats produits de propriétés topologiques et sémantiques 2 3 Deep-Web – univers des bases de données difficilement accessibles via les moteurs classiques. Identifier et classer les propriétés topologiques des agrégats C’est l’idée des FOCUSED-CRAWL que décrit une série d’articles récents. Plusieurs principes algorithmiques et méthodologiques sont à la base du développement de dispositifs expérimentaux qui ont pour objectif d’isoler et d’extraire des « web localities » sous forme d’agrégats que certains qualifient de « communautaires ». C’est aussi ce que Barhat et Kumar appelent le principe de « Topic Distillation ». « Topical Locality In The Web : experiments and observations », B.-D. Davison, 2000. « Experiments In Social Data Mining : The TopicShop system », B. Amento, L. Terveen, W. Hill, 2002. « Extracting Large-Scale Knowledge Basis From The Web », R. Kumar, P. Raghavan, S. Rajagopalan, A. Tomkins, « Clustering Of Web Search Results With links Analysis », Y. Wang, M. Katsuregawa, 2000. « Focused Crawling: A New Approach To Topic-Specific Web Resource Discovery », A.-M. Van Den Berg, S. Chakrabarti, B. Dom, 2001. « Who Links To Whom: Mining Linkage Between Web Sites », K. Barhat, M. Henzinger, B.-W. Chang, M. Ruhl, 2001. « Visualizing The Evolution Of Web Ecologies », J. Pitkow, J. Mackinlay, P. Pirolli, S.-K. Card, 1998. « Trawling The Web For Emerging Cyber-Communities », R. Kumar, P. Raghavan, S. Rajagopalan, A. Tomkins, 1999. « Distributed Hypertext Resource Discovery Through Examples », S. Chakrabarti, M.-H. Van Den Berg, B.-E. Dom, 2000. « Unifying Text and Link Analysis », B. D. Davison, 2003. « Recongnizing Nepotistic Links On The Web », B. D. Davison, 2000. « DiscoWeb: Applying Link Analysis To Web Search », B. D. Davison, 1999. « Connectivity Review », F. Crimmins, 2000. « Inferring Sub-Culture Hierarchies Based On Object Diffusion On The World Wide Web », T.-G. Chiou, J. Donath, 1999. « Life, Death, and Lawfulness on the Electronic Frontier », J. Pitkow, 1997. « Monitoring The Dynamic Web To Respond To Continuous Queries », S. Pandey, K. Ramamritham, S. Chakrabarti, 2003. Hubs et authorites ont tendance à se renforcer mutuellement. C’est un des principes énoncés par Kleinberg et sur lequel est fondé le premier algorithme de détection des agrégats, HITS. HUBs (liens sortants) Authorities (liens entrants) Frontières externes Relations de voisinage (corrélation avec l’analyse de contenu) Ressources Calcul de densité (obsolue et relative) Estimation du volume de ressources Frontières internes (sous-agrégats) (corrélation avec l’analyse de contenu) « Objets sociaux » Recherche d’indices de cohésion sociale : Web-Rings WebLogs, Wiki, mail et liste de diffusion… Principes de corrélation avec l’analyse de contenu (« propriétés sémantiques » Il s’agit de « stabiliser » les agrégats dans une configuration « stable » pour les extraire, les visualiser et les analyser dans le temps. L’ensemble des « filtres » topologico-sémantiques peuvent être considérés comme des formes de curseurs servant à « figer » les agrégats en une configuration précise topologie Les données topologiques doivent être corrélées à une analyse de « contenu » (balises META, full-text) selon différentes méthodes. Il s’agit de comprendre comment s’organise « géographiquement » la distribution du « sens » dans la topologie des agrégats. Les méthodes de corrélation entre distribution des mots-clefs et propriétés topologiques doivent être plurielles, et surtout dynamiques lors des crawls. C’est l’un des principes fondateurs du monitoring et l’une des propriétés essentielles d’un outil d’exploration des agrégats dédié à des experts du domaine. sémantique Produire des hypothèses pour modéliser : * des relations contiguïté entre agrégats * des relations de hiérarchie * des modèles de composition internes des agrégats * des modèles d’évolution temporelle * des configurations sociales typiques sur le web 1)Relations de voisinage Les agrégats entretiennent entre eux des relations de contiguïté. Elles sont à déterminer en fonction de paramètres topologiques (par ex. de variation de densité) et sémantiques (dispersion des mots-clefs). On peut faire l’hypothèse que ces relations sont de nature très différentes de ce que propose, par exemple, les catégories et sous-catégories YAHOO. 2) Relations hiérarchiques Les relations hiérarchiques entre agrégats sont pour l’heure difficiles à cerner et dépendent en grande partie du « degré de focus » des outils d’exploration. On admettre en principe l’idée de possibles clustering d’agrégats, tout comme l’idée qu’en deçà d’un certain seuil d’exploration il n’est plus possible d’extraire d’organisation spécifique tant topologique que sémantique 3) Modèles d’organisation interne On peut admettre qu’il existe des types, ou à tout le moins des degrés d’organisation interne des agrégats. Ces modèles dépendent entre autre du degré de densité hypertexte des agrégats mais aussi probablement de « schémas » communautaires plus ou moins implicites (par ex. des façons de développer des liens transversaux entre sites) 4) Evolution temporelle La stabilisation des agrégats permettra d’entamer une veille temporelle de certains agrégats. L’objectif est de pouvoir identifier les étapes de l’évolution d’un agrégat, en termes de paliers successifs s’ils existent ou de scénarios-types (fusion d’agrégats proches, dissociation d’un agrégats en plusieurs, paliers d’expansion, degré de cohésion interne…). La question nous semble essentielle pour l’archivage des réseaux. 5) Agrégats et configuration sociale des communautés La question des agrégats n’est pas différenciable de celle des cyber-communautés, de leurs formes typiques d’organisation et de fonctionnement. C’est pourquoi la modélisation des agrégats doit s’accompagner d’une étude de tous les types « d’objets sociaux  » auxquels ils s’associent. Il s’agirait ici d’en faire la typologie et de comprendre selon quels principes agrégats et « objets sociaux » sont complémentaires. étape 1 étape 2 étape 3 Type 1 Type 2 • -mailto • liste de diffusion • Web ring • Wiki • WebLogs

  2. temps Schéma synthétique de la chaîne logicielle du robot Tarent crawl filtrage graphe Première étape : Construction d’un graphe de pages en suivant les liens Deuxième étape : Reconstitution du graphe de site par regroupement de pages suivant un algorithme spécifique (pour l’instant regroupement par nom de domaine ex : www.utc.fr) Troisième étape : Quatrième étape : visualisation, contextualisation et manipulation Filtres topologiques : Identification des « hubs » et des « authorities » par calcul du maximum et du minimum de connectivité profondeur 0 Barre de menu : elle permet le lancement et l’ouverture de crawls, d’appliquer les différents filtres et de lancer les outils graphe par page filtrage topologique profondeur 1 Outils : ils permettent de visualiser les données brutes de la base de données et de faire des recherches sur les mots clés profondeur 2 Authority Hub Filtres sémantiques : Traitement statistiques à partir des métadonnées et du full-text Extraction des frontières et des sous-domaines "sémantiquement homogènes" graphe par site profondeur 3 filtrage sémantique Site d Site a Graphe : il représente le graphe des sites. Grâce à sa fonction « locality », il permet de fixer le focus sur un nœud et d’afficher seulement son voisinage proche Site e Site b Site f Site c Possède les mots clés a, b, c Déjà visité Point d’entrée A partir de cette étape, tous les traitements sont effectués à l’échelle du site Possède les mots clés d, e, f Browser : il affiche la page web associée à un nœud après clic sur celui-ci dans le graphe Non désiré (blacklist) Découvert à ce niveau Ne possède pas de lien sémantique

More Related