1 / 50

WP6 - Knowledge services for intensive data analysis and intelligent query answering

WP6 - Knowledge services for intensive data analysis and intelligent query answering. Responsabile: Franco Turini (UniPI) Membri TB: Dino Pedreschi (UniPI) Domenico Saccà (ICAR-CNR). WP6 - Obiettivi.

Download Presentation

WP6 - Knowledge services for intensive data analysis and intelligent query answering

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. WP6 - Knowledge services for intensive data analysis and intelligent query answering Responsabile: Franco Turini (UniPI) Membri TB: Dino Pedreschi (UniPI) Domenico Saccà (ICAR-CNR) Workshop di Rimodulazione

  2. WP6 - Obiettivi • Costruzione di servizi di middleware per applicazioni e processi knowledge intensive: • estrazione e ricerca di informazione e conoscenza da • fonti strutturate (basi di dati, data warehouses) • semi-strutturate (pagine web, documenti XML) • utilizzo dell’informazione e della conoscenza estratta per servizi ad alte prestazioni di search, di retrieval e di query answering (efficienza e qualità di servizio) Workshop di Rimodulazione

  3. WP6 - Approccio • Basic services: per data management e performance • Knowledge services: per applicazioni e computazioni di knowledge discovery distribuite • Retrieval services: per il recupero di informazioni sul Web knowledge services retrieval services basic services Workshop di Rimodulazione

  4. WP6 – Basic services • resource discovery and description • accesso ai dati • compressione e ricerca sui dati • primitive di data mining, di data preprocessing • grid mining (attività fortemente esplorativa) • Partecipano: • ICAR-CNR CS (Talia, Saccà) • ISTI-CNR PI (Giannotti, Perego) • UniPI (Ferragina, Ghelli, Pedreschi, Ruggieri) Workshop di Rimodulazione

  5. WP6 – Low-level Basic Services • High-performance web switching • Partecipano: • UniPI (Attardi) • IEIIT-CNR TO (De Martin) • PoliTO (Meo) Workshop di Rimodulazione

  6. WP6 – Knowledge services • ambienti di supporto al processo di knowledge discovery • linguaggi di interrogazione per data mining • Partecipano • ICAR-CNR CS (Talia, Saccà) • ISTI-CNR PI (Giannotti) • UniPI (Pedreschi, Ruggieri, Turini) Workshop di Rimodulazione

  7. WP6 – Retrieval services • focused crawling su grid • Partecipano: • UniPI (Starita) • UniPD (Sperduti) • UniSI (Gori, Maggini) • UniFI (Frasconi, Soda) Workshop di Rimodulazione

  8. Basic Services: stato e prospettive • Grid DB per resource discovery and description • Strumenti per XML indexing and compression • Architettura di integrazione di strumenti di Data Mining su GRID • Open Web Switching Workshop di Rimodulazione

  9. GRID DB per resource discovery and description Principal Investigator: Giorgio Ghelli Workshop di Rimodulazione

  10. Background • Mancanza di servizi dati DB-like nei toolkit standard • Progetti esistenti • Datagrid: non DB oriented • Spitfire: accesso distribuito a basi di dati relazionali • Polar*: riformulazione in ambito GRID del DBMS parallelo ad oggetti Polar • GGF DAIS-WG: servizi per l’accesso a DB esistenti Workshop di Rimodulazione

  11. Obiettivi del nostro progetto • L’attenzione è spesso focalizzata sulle problematiche tradizionali di decomposizione dei piani di accesso e gestione distribuita delle transazioni • Noi vogliamo focalizzare l’attenzione sulle problematiche peculiari della griglia: • dinamicità della struttura dell’Organizzazione Virtuale • integrazione di domini amministrativi diversi • (se possibile) high performance Workshop di Rimodulazione

  12. Il nostro obiettivo • Progettare un Semistructured GRID-DB, ovvero un DB GRID-distribuito caratterizzato da: • struttura distribuita e dinamica, ovvero la capacità di accettare l’apparizione e sparizione di componenti del sistema • modello dei dati semistrutturato • utilizzo di linguaggi standard (XQuery) e protocolli standard (LDAP like?) per l’accesso Workshop di Rimodulazione

  13. Applicazioni tipiche • Complementare l’approccio tradizionale; ad esempio: • il GRID-DB per gestire i metadati, e i database federati per gestire i dati • il GRID-DB per affiancare la gerarchia GRIS-GIIS quando il modello dei dati del GRIS (LDAP data model) non è sufficiente Workshop di Rimodulazione

  14. Integrazione nell’ambito del progetto • Metteremo a disposizione gli strumenti da noi sviluppati nell’ambito del WP6 integrandoci in particolare con le attivita di: • adattamento all’architettura grid di un ambiente di knowledge discovery basato su XML • livello core dei basic services for knowledge discovery on grids • Disponibili ad un integrazione con altri WP Workshop di Rimodulazione

  15. Gruppo di lavoro • Sartiani (borsa Giugno 2003 – Maggio 2003) • Ghelli, Manghi, Albano, Conforti Workshop di Rimodulazione

  16. Deliverables • 12 mesi: un documento di progettazione dell’architettura, modello dei dati, linguaggio, e protocollo del GRID-DB • 18 mesi: documento di progettazione del prototipo • 30 mesi: prototipo • 36 mesi: rapporto sulla sperimentazione del prototipo Workshop di Rimodulazione

  17. Strumenti per XML indexing and compression Principal Investigator: Paolo Ferragina Workshop di Rimodulazione

  18. Attività svolte: XML indexing and compression • IR oriented: indice testuale non specializzato all’XML • Le ricerche su testo+struttura possono essere molto lente • Flat: nessun preprocessing del file e ricerca per scansione (SAX o DOM) • Molto lento e, nel caso del DOM, si usa molta memoria • Database oriented: uso di un DBMS a oggetti o relazionale • Abbiamo bisogno di indici extra, l’occupazione in spazio aumenta • Query strutturali necessitano di numerose join, e sono quindi lente • XML nativo: tecniche ad hoc di storage e indicizzazione per XML • XCDE Library:approccio nativo, e pressocchè unico nel suo genere • Libreria C con licenza LGPL, altamente personalizzabile • Tecniche indicizzazione e compressione allo stato dell’arte Workshop di Rimodulazione

  19. API 1° anno Data engine Context engine Text engine Tag engine XCDE Library: deliverable e ricerche future XML Query solver XCDE Library Disk API Query engine Text query solver Tag-Attribute query solver Context extractor Console • Documenti e indici in forma compressa(tutto entro la dimensione originale del file) • Supporto a query testuali e strutturali complesse(errori, regexp, proximity, nesting, ...) • Relizzazione per single-machine e studio di fattibilità per l’estensione al Grid • Piani futuri: • Realizzazione di primitive di query più potenti, vicino a XQuery e orientate ai testi • Uso come componente base di applicazioni del WP6 • Nuove tecniche di compressione e indicizzazione su file XML Workshop di Rimodulazione

  20. Architettura di integrazione di strumenti di Data Mining su GRID Principal Investigators: Mimmo Talia, Mimmo Sacca` Workshop di Rimodulazione

  21. Obiettivi 1) le attivita` che saranno svolte con chiari riferimenti al contesto del progetto • Realizzazione di una architettura per supportare applicazioni di KDD parallele e distribuite su Griglie computazionali (Knowledge Grid). • L’architettura permette di integrare strumenti e algoritmi di data mining con gli ambienti di Grid computing. • Definizione e realizzazione di un sistema di distribuzione e aggregazione di fonti informative • Il sistema permette di rappresentare una fonte informativa (ad esempio stream data) come una rete di viste con diversi livelli di aggregazione in modo che ogni nodo abbia nella sua vista i dettagli dei dati di sua pertinenza e un sintesi di quelli presenti presso altri nodi Workshop di Rimodulazione

  22. Risultati 2) i primi risultati ottenuti in questi primi mesi • Schema funzionale dell’architettura del KDD parallelo e distribuito e definizione delle componenti di base e delle loro interfacce. • Definizione di algoritmi e modelli di aggregazione di datacube e stream data e loro distribuzione su griglia 3) i deliverable del primo anno • Documenti di specifica dell’architettura del KDD parallelo e distribuito e sviluppo di un primo prototipo realizzato su Globus Toolkit. • Documenti di specifica per la aggregazione e distribuzione di datacube e prototipo di un sistema distribuito di gestione di stream data Workshop di Rimodulazione

  23. Web Switching Gruppo di Lavoro: Centro Serra, Università di Pisa Giuseppe Attardi Vivek Sinha Stefano Suin Workshop di Rimodulazione

  24. Setting • Large number of transactions (>1000/sec) • Large amount of data (billions of documents) Server Farm Clients Internet Web Switch Workshop di Rimodulazione

  25. Switch Technology • Local Director with Direct Routing Replies go directly to clients Internet Requests Web Switch Single IP address Internal Network Workshop di Rimodulazione

  26. Details • IP packet forwarding: • Modified Linux kernel • Switch chooses server and changes MAC address of packet • Switch maintains table of connections, to ensure persistency • Each server connects to outside with same IP: • Modified Linux kernel to avoid responding to ARP Workshop di Rimodulazione

  27. Status • Experimenting with Linux Virtual Server • Benchmarks and testing with RLX blade server Workshop di Rimodulazione

  28. Test beds • Distributed Crawler • Goal: collect 300 million Web documents in a month • Distributed Search Engine • Collection partitioned into several indexes • Cluster for each partition • Web Switch redirects to various clusters Workshop di Rimodulazione

  29. Open Web Switching Gruppo di lavoro: Politecnico di Torino/IEIIT-CNR Espedito Antonio Mancuso Juan Carlos De Martin Angelo Raffaele Meo Workshop di Rimodulazione

  30. Attività • Obiettivo: sostituire i layer-7 switch -costosi e proprietari - con web switch ai margini della rete - economici, flessibili ed aperti • Switching: MPLS-based • Piattaforma: Linux • Risultati: Progettato architettura complessiva (v. rapporto tecnico) Workshop di Rimodulazione

  31. Attivita` • Obiettivo: sostituire i layer-7 switch –costosi e proprietari- con web switch ai margini della rete – economici, flessibili e aperti. • Switching: MPLS-based • Piattaforma: Linux • Deliverable: progetto dell’architettura complessiva Workshop di Rimodulazione

  32. Knowledge Services: stato e prospettive • Knowledge Grid • Costruzione di ambienti di KDD su Grid Workshop di Rimodulazione

  33. Knowledge Grid Principal Investigators: Mimmo Talia Mimmo Sacca` Workshop di Rimodulazione

  34. Attivita` 1) le attivita` che saranno svolte con chiari riferimenti al contesto del progetto • Realizzazione di strumenti di alto livello per lo sviluppo di processi di KDD su Griglie computazionali costruiti a partire dell’architettura e dei servizi di base della Knowledge Grid • Progettazione e sviluppo di metodi, strumenti e meccanismi basati su XML per la descrizione di risorse e processi di KDD, la loro ricerca e integrazione sulla Griglia • Sviluppo di una ontologia per il data mining da usare nella Knowledge Grid Workshop di Rimodulazione

  35. Attivita` (2) • Definizione e realizzazione prototipale di un ambiente per la composizione di risorse e servizi disponibili su griglia, modellati tramite un workflow, e per l’analisi, la predizione e il monitoraggio degli scenari di utilizzo attraverso l’integrazione di tecniche di Knowledge Discovery e di Reasoning • Definizione e sviluppo di tecniche di data mining per l’analisi di workflow di composizione di servizi su griglia al fine di individuare pattern frequenti, situazioni di probabile successo (o insuccesso) e per ristrutturare la composizione al fine di aumentare la qualità complessiva Workshop di Rimodulazione

  36. Risultati 2) i primi risultati ottenuti in questi primi mesi • Definizione di un servizio di informazione per la Knowledge Grid. • Progettazione di uno strumento per lo sviluppo di applicazioni KDD sulla Griglia. • Definizione di un modello deduttivo-induttivo per la definizione di workflow di servizi e la predizione di scenari di comportamento • Definizione di tecniche di mining di regole associative su istanze di workflow rappresentate come grafi Workshop di Rimodulazione

  37. Deliverables 3) i deliverable del primo anno • Documenti sulle tematiche elencate. • Prototipi di strumenti e servizi di alto livello per KDD sulla Griglia. Workshop di Rimodulazione

  38. Ambienti di KDD su Grid Principal Investigators: Fosca Giannotti,Salvatore Ruggieri, Dino Pedreschi, Franco Turini Workshop di Rimodulazione

  39. Strategia • marcatura stretta dei risultati del WP8 ovvero: • sequenziale • parallelo • GRID-aware Workshop di Rimodulazione

  40. Sistema KDDML • Principio base: • utilizzo di XML come linguaggio per la interoperabilità • un documento XML si dice valido se rispetta le specifiche definite nella corrispondente DTD (Document Type Definition) • forte espressività del QL • sistema aperto • In KDDML (KDD Markup Language): • implementazione in Java • ogni modello (RDA, Alberi, Clusters) viene rappresentato come un documento XML (KDD_OBJECT) • anche i problemi di estrazione di conoscenza sono documenti XML (KDD_QUERY) Workshop di Rimodulazione

  41. XML Query Executor Componente esterna RunTimeException Repository LotusXSL Componente implementata Operatori Graphic User Interface Classe Browser Wrappers WEKA SorgenteDati Paths XML-DOM rappresentation Architettura originaria di KDDML Legenda: Workshop di Rimodulazione

  42. Esecuzione seq. di una KDD query • Ad ogni documento XML che rappesenta il modello o la query puo’ essere associato un albero DOM (Document Object Model). • Utile dare al programmatore una visione concettuale dei dati contenuti nel documento. • Disponibili interfacce per manipolare e leggere i nodi dell’albero (getChilds(), getAttribute() …). • Il QueryExecutor di KDDML effettua una visita in profondità dell’albero DOM che rappresenta la query da eseguire. Per ogni operatore individuato si richiama la classe corrispondente per l’esecuzione. Workshop di Rimodulazione

  43. Come parallelizzare l’esecuzione? • Introduzione in KDDML di un operatore “esplicito” di parallelismo: Parallel • Motivazioni: • consentono l’annidamento di sotto operatori • vi si puo’ applicare il “Task Parallel” • utilizzo della strategia “Replicazione degli alg. DM seq.” • Operatori scelti: • And_Or_Committee • Rule_Exception • Rule_Support • Preserved_Rules • Classify • Take_By_If Workshop di Rimodulazione

  44. Architettura del sistema parallelo File risultati KDD Query GUI Query_Executor Parallel Legenda: JVM1 Package classi JavaVm.hpp FileAstJava Flusso dei dati File System ASSIST File.ast pipe librerie JVM2 AstFile Operatori Parquery_Executor Wrappers Workshop di Rimodulazione

  45. Deliverables • versione parallela di KDDML • progetto di integrazione di algoritmi di DM paralleli • Studio di fattibilita` sul Grid Mining Workshop di Rimodulazione

  46. Retrieval services • focused crawling su grid Principal Investigators: Antonina Starita, Alessandro Sperduti, Marco Gori, Paolo Frasconi Workshop di Rimodulazione

  47. Motivations • General purpose search engines must trade recency for coverage • Coverage: fraction of Web documents that are crawled and indexed • Recency: index is -current at time if no changes occurred in

  48. Focused crawling • Crawl the Web only for a specific “topic” • Given the available bandwidth both coverage and recency will be high for that topic • AI algorithms are necessary to: • decide whether or not a page is off-topic • predict whether following out-links from a given page will increase coverage • filter crawled documents • Different machine learning tools may be used

  49. Objectives • Crawling: • Use grid infrastructure to distribute crawling activity on several nodes • Learning and categorization: • Very large collections of (physically distributed) documents • Large number of classes • Exploit link analysis

  50. Deliverables • 1st year • Prototype of a learning and categorization service deployed on the grid • 2nd year • Deployment of a service capable of dynamic management of classification agents • First prototype of parallel distributed crawlers • 3rd year • Implementation and testing of the adaptive focused crawler

More Related