1 / 25

Enhancing P2P File-Sharing with an Internet-Scale Query Processor

Gruppo. Enhancing P2P File-Sharing with an Internet-Scale Query Processor. di Boon Thau Loo, Joseph M. Hellerstein, Ryan Huebsch, Scott Shenker e Ion Stoica (University of Berkeley). Presentazione di: Marco Andolfo Claudio Campeggi (rel.) Alessio Gaeta. Sistemi Informativi LS A.A. 2005-2006.

jeb
Download Presentation

Enhancing P2P File-Sharing with an Internet-Scale Query Processor

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Gruppo Enhancing P2P File-Sharingwith an Internet-Scale Query Processor di Boon Thau Loo, Joseph M. Hellerstein, Ryan Huebsch, Scott Shenker e Ion Stoica(University of Berkeley) Presentazione di: Marco AndolfoClaudio Campeggi (rel.)Alessio Gaeta Sistemi Informativi LS A.A. 2005-2006

  2. Sommario • Problema del lookup • Caratteristiche della ricerca di documenti nella rete gnutella • Un nuovo approccio di ricerca: DHT e PIERSearch • Soluzione ibrida proposta: pro e contro della scelta individuata Sistemi Informativi LS A.A. 2005-2006

  3. Problema del lookup • Introduzione e sviluppo dei sistemi di condivisione dei file che utilizzano reti Peer-to-Peer (P2P) Problema del lookup: Dato un oggetto memorizzato in un certo insieme dinamico di nodi, trovarlo Sistemi Informativi LS A.A. 2005-2006

  4. Problema del lookup Si possono applicare tecniche di query simili a quelle dei DB distribuiti? • Principali cause • Dimensioni elevate della rete P2P • Alta scalabilità della rete ed eterogeneità delle macchine coinvolte • Agli occhi dell’utilizzatore appare un unico sistema di query NO! Sistemi Informativi LS A.A. 2005-2006

  5. La rete gnutella Numero elevatissimo di nodi: rete eterogenea di dimensioni globali Uso del flooding per effettuare le ricerche Le macchine sono connesse in una rete ad hoc non strutturata Architettura del sistema molto semplice Un utente può entrare ed uscire dalla rete liberamente senza causarne la caduta I file memorizzati su un nodo sono condivisi con gli altri Sistemi Informativi LS A.A. 2005-2006

  6. Come avviene la ricerca • Attraverso un’applicazione client (es. LimeWire) l’utente si collega alla rete e specifica una keyword per eseguire la ricerca • La ricerca avviene per flooding: partendo dai nodi più vicini si propaga la query da nodo a nodo • Se un nodo risponde in modo affermativo riporta il suo ID e i file che fanno match alla sorgente • Al termine della ricerca viene riportato il result set complessivo • La ricerca non èesaustiva: viene fissato untime-to-live (TTL) che permette solo di esplorare una frazione della rete! Sistemi Informativi LS A.A. 2005-2006

  7. Come avviene la ricerca: esempio Ha inizio la ricerca! Orizzonte di ricerca Sistemi Informativi LS A.A. 2005-2006

  8. Considerazioni • La rete utilizza una tecnica di ricerca semplice • La ricerca di un file che presenta molte copie (file popolari) darà sempre ottimi risultati E se sono presenti poche copie? • C’è il forte rischio che non sia presente nessuna copia dentro la frazione di rete! • Una copia esiste ma purtroppo è presente in una frazione non raggiungibile! L’algoritmo di ricerca risulta essere poco efficiente e occorre introdurre dei miglioramenti Sistemi Informativi LS A.A. 2005-2006

  9. Alternative • Aumentare il valore di TTL • Questo comporta ampliare il numero di nodi che la query dovrà visitare • Tuttavia si rischia di allungare (anche drasticamente) il tempo di risposta (il protocollo prevede che al max sia di 60 sec.) • Introdurre gli ultrapeers: gruppo di peer al quale il client si lega per spedire i messaggi • Il flooding avviene tra ultrapeers Indicizzare i contenuti? Sistemi Informativi LS A.A. 2005-2006

  10. PIERSearch • PIERSearch è un’applicazione che consente di pubblicare e ricercare oggetti nell’ambito di una rete P2P • Il suo motore di ricerca e il meccanismo di pubblicazione si appoggiano ad una rete strutturata basata su Distributed Hash Table (DHT) Sistemi Informativi LS A.A. 2005-2006

  11. N1 Ogni nodo è responsabile di un insieme di chiavi “vicine” al suo ID N8 N56 Ad ogni nodo viene assegnato un ID K54 N51 N14 La rete ha una struttura ad anello N48 Ogni nodo conosce un certo numero di suoi vicini N21 Il lookup avviene per avvicinamenti successivi all’obiettivo Il nodo N8 cerca l’oggetto con chiave K54 N42 N38 Distributed Hash Table lookup(54) Sistemi Informativi LS A.A. 2005-2006

  12. Il fileID è generato mediante una funzione di hash su tutti gli altri campi Pubblicazione di un contenuto • Per fornire la possibilità di query testuali su un overlay DHT PIERSearch fa uso di Inverted Index Sistemi Informativi LS A.A. 2005-2006

  13. fileID fileID Query sui termini T1 e T2 Ricerca con PIER Risultati fileID Item(fileID,…) keyword = T1 keyword = T2 Inverted Inverted Sistemi Informativi LS A.A. 2005-2006

  14. fileID Query ottimizzata sui termini T1 e T2(InvertedCache) Ricerca Risultati fileID Item(fileID,…) keyword = T2 keyword = T1 InvertedCache Sistemi Informativi LS A.A. 2005-2006

  15. DHT: utilizzabile? • PIERSearch, usando DHT, garantisce recall deterministici tuttavia… • La fase di pubblicazione è complessa e può avere un overhead non trascurabile • La fase di ricerca può consumare notevoli quantità di banda • Occorre trasferire tra i peers le intere tabelle Inverted con tutti i risultati (parziali) della query Sistemi Informativi LS A.A. 2005-2006

  16. Infrastruttura ibrida di ricerca • Una soluzione possibile per limitare l’overhead è creare un’infrastruttura ibridagnutella-PIERSearch • In questo modo: • Inizialmente si adotta il flooding (trovo i file “popolari”) • Se il flooding fallisce (dopo un timeout prefissato) scatta la ricerca con PIERSearch • Si costruisce un indice parziale per trovare i file rari • Nel DHT si tiene traccia solo dei nodi ultrapeer Ma quali contenuti indicizzare? Sistemi Informativi LS A.A. 2005-2006

  17. Politiche di pubblicazione [1] • Query Result Size (QRS) • I file rari sono quelli presenti in result set piccoli • Si definisce il parametro Result Size Threshold • Oggetti rari non cercati non finiscono in cache • Term Frequency (TF) • Ogni nodo ibrido raccoglie statistiche temporali dal traffico di ricerca per determinare la frequenza delle keyword • Si definisce il parametro Term Frequency Threshold • Problema di file raro con keyword popolare Sistemi Informativi LS A.A. 2005-2006

  18. Politiche di pubblicazione [2] • Term Pair Frequency (TPF) • Analoga alla precedente, ma che considera coppie di termini • Si definisce il parametro Term Pair Frequency Threshold • Sampling (SAM) • Si campionano i nodi vicini per stimare un limite inferiore del numero di repliche di ogni file • Si definisce il parametro Sample Threshold Sistemi Informativi LS A.A. 2005-2006

  19. Test [1] Sistemi Informativi LS A.A. 2005-2006

  20. Test [2] Sistemi Informativi LS A.A. 2005-2006

  21. Problemi di modello • Tutti i nodi partecipano al query processing • Distribuzione random delle repliche e dei link tra i nodi. Repliche identiche non risiedono sullo stesso nodo • Costi totali del sistema sono dominati dall’overhead della comunicazione (misurato in n° di messaggi scambiati) Sistemi Informativi LS A.A. 2005-2006

  22. Problemi di modello • L’orizzonte di ricerca è identico per tutte le query, indipendentemente dal numero di risultati ottenuti • Flooding “ideale”: broadcast efficiente che necessita di n-1 messaggi per raggiungere n nodi • Rete statica: non entrano né escono nuovi nodi Sistemi Informativi LS A.A. 2005-2006

  23. Conclusioni • gnutella ottimizza la ricerca di file che hanno molte copie • PIERSearch al contrario ottimizza la ricerca di file rari • Creazione di un sistema ibrido di ricerca • Sfrutta le potenzialità migliori dei due sistemi • I test eseguiti verificano la fattibilità dell’approccio introdotto • Possibili miglioramenti • Rendere la rete strutturata • Migliorare il flooding Sistemi Informativi LS A.A. 2005-2006

  24. Bibliografia • gnutella: http://gnutella.wego.com • Limewire:http://www9.limewire.com • PlanetLab: http://www.planet-lab.org/ • OpenDHT:Fixing the Embarrassing Slowness of OpenDHT on PlanetLabdi Sean Rhea, Byung-Gon Chun, John Kubiatowicz, and Scott Shenker • Funzionamento DHT: A Scalable Content-Addressable Networkdi Sylvia Ratnasamy, Paul Francis, Mark Handley, Richard Karp and Scott Shenker Sistemi Informativi LS A.A. 2005-2006

  25. Fai 13! Votaci! Fine Sistemi Informativi LS A.A. 2005-2006

More Related