160 likes | 357 Views
Organisation de l’entrepôt edot. Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen. Entrepôt e.dot : Architecture. Services edot. Interface edot. Miel++. ActiveXML. ACWare. BD. Xyleme. CG. Entrepôt edot. Entrepôt e.dot. Entrepôt de travail
E N D
Organisation de l’entrepôt edot Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen
Entrepôt e.dot : Architecture Services edot Interface edot Miel++ ActiveXML ACWare BD Xyleme CG Entrepôt edot
Entrepôt e.dot • Entrepôt de travail • Échange de données entre les services • Stockage des résultats intermédiaires (validation) • Schéma « orienté-services » • Entrepôt final • Interrogation par MIEL++ • Schéma « orienté-domaine »
Entrepôt de travail • Toutes les données (paramètres, fichiers etc…) utilisées et générées par les services edot sont stockées dans un entrepôt • Le déclenchement des services (workflow) est implicite et contrôlé par l’entrepôt
Organisation de l’entrepôt : Modèle ACWare • Modélisation des données : • Types de données : types simples + constructeurs de types complexes (n-uplet, collection) + clés • Schéma : organisation des données • Modélisation des services : • Règles de mise-en-correspondance : Schéma entrées/sorties de services Web • Modèle : Xquery (extraction) + Xupdate (MAJ)
Entrepôt de travail : Contenu et Structure Globale • Initialisation : • Parmètres d’initialisation du crawler • Ontologie • Un ensemble de pages web • Un ensemble de documents PDF • Un ensemble de documents Excel • Pour chaque document/page: • Les résultats des traitements appliqués (services edot) E.Dot Initialisation ExcelDoc PageWeb PDFDoc
Initialisation E.Dot Initialisation Version Crawl Ontologie String MaxNum MaxDur Souscriptions UrlsIncl UrlsExclus
Ontologie edot Initialisation Ontologie SymPrevius Combase Merge infos schemaRel synonymes traduction taxonomie
Pages web • Les documents (pdf, excel) et le pages web sont les unités centrales de l’entrepôt auxquelles on applique des traitements • Chaque document/page est identifié par une URL (clé) • Les résultats des traitements sont stockés « avec » le document/la page E.Dot PageWeb URL Acqu SML Xtab String
Phase Acquisition PageWeb • Xyleme Crawler : • Fonction : crawl exhaustive et filtrage brut (monitor) • Résultat : {(URL, mots clés)} • E.Dot Filter : • Fonction : crawl + filtrage intelligent • Résultat : {(URL, contenu, score) • Thesus : • Fonction : classement • Résultat : {(URL, mots clés)} Acqu Date String Thesus Crawl Filter
Crawl Xquery/Xupdate <crawl> <crawldate> xs:date </crawldate> [1] <notification> [0..*]<url> xs:string </url> [1] <subscription> xs:string </subscription> [1] <monitoring> xs:string </monitoring> [1] </notification> </crawl> Crawl Souscription Date Id String String Int
Keywords Date 17/6/04 false ph aliment Thesus • Initialisation : Activate = true • Le service Thesus et lancé périodiquement avec le résultat d’une requête XQuery qui retourne les URLs des pages avec Activate = true • Les résultats obtenus sont stockés dans l’entrepôt avec la page traitée et Activate := false Thesus Activate true
EdotFilter <Filter> <Activate:$> <RequeteFilter:$/> <Type:$/> <Score:Int/> <TexteNettoye:$/> <ContenuBrut:$/> </Filter> Filter Activate Contenu Texte Date Requête Boolean Score Type
<ExcelDoc> <URI:$/> <Contenu:$/> <Excel2Xtab:*/> <sml:*/> </ExcelDoc> <pdfDoc> <URI:$/> <Contenu:$/> <MetaPdf:*/> <pdf2Xtab:*/> <sml:*/> </pdfDoc> Schéma : ExcelDoc et pdfDoc
Implantation de l’entrepôt • Le schéma ACWare est traduite en application ActiveXML : • Ensemble de documents XML intensionnels accessibles à travers des requêtes XQuery publiées sous forme de services Web • Limitations actuelles : • Gestion de grands volumes de documents/données • Outils d’exploration et de validation de l’entrepôt
État d’avancement • Travail accompli : • Définition des signatures WSDL des services edot • Définition du schéma ACWare de l’entrepôt de travail • Travail en cours: • Intégration des services edot (requêtes entrées/sorties) dans le schéma ACWare • Interface graphique de conception et de pilotage interactif (pour la validation) • Intégration ActiveXML/Xylème Zone Server