Enhancing P2P File-Sharing with an Internet-Scale Query Processor

Gruppo Enhancing P2P File-Sharingwith an Internet-Scale Query Processor di Boon Thau Loo, Joseph M. Hellerstein, Ryan Huebsch, Scott Shenker e Ion Stoica(University of Berkeley) Presentazione di: Marco AndolfoClaudio Campeggi (rel.)Alessio Gaeta Sistemi Informativi LS A.A. 2005-2006

Sommario • Problema del lookup • Caratteristiche della ricerca di documenti nella rete gnutella • Un nuovo approccio di ricerca: DHT e PIERSearch • Soluzione ibrida proposta: pro e contro della scelta individuata Sistemi Informativi LS A.A. 2005-2006

Problema del lookup • Introduzione e sviluppo dei sistemi di condivisione dei file che utilizzano reti Peer-to-Peer (P2P) Problema del lookup: Dato un oggetto memorizzato in un certo insieme dinamico di nodi, trovarlo Sistemi Informativi LS A.A. 2005-2006

Problema del lookup Si possono applicare tecniche di query simili a quelle dei DB distribuiti? • Principali cause • Dimensioni elevate della rete P2P • Alta scalabilità della rete ed eterogeneità delle macchine coinvolte • Agli occhi dell’utilizzatore appare un unico sistema di query NO! Sistemi Informativi LS A.A. 2005-2006

La rete gnutella Numero elevatissimo di nodi: rete eterogenea di dimensioni globali Uso del flooding per effettuare le ricerche Le macchine sono connesse in una rete ad hoc non strutturata Architettura del sistema molto semplice Un utente può entrare ed uscire dalla rete liberamente senza causarne la caduta I file memorizzati su un nodo sono condivisi con gli altri Sistemi Informativi LS A.A. 2005-2006

Come avviene la ricerca • Attraverso un’applicazione client (es. LimeWire) l’utente si collega alla rete e specifica una keyword per eseguire la ricerca • La ricerca avviene per flooding: partendo dai nodi più vicini si propaga la query da nodo a nodo • Se un nodo risponde in modo affermativo riporta il suo ID e i file che fanno match alla sorgente • Al termine della ricerca viene riportato il result set complessivo • La ricerca non èesaustiva: viene fissato untime-to-live (TTL) che permette solo di esplorare una frazione della rete! Sistemi Informativi LS A.A. 2005-2006

Come avviene la ricerca: esempio Ha inizio la ricerca! Orizzonte di ricerca Sistemi Informativi LS A.A. 2005-2006

Considerazioni • La rete utilizza una tecnica di ricerca semplice • La ricerca di un file che presenta molte copie (file popolari) darà sempre ottimi risultati E se sono presenti poche copie? • C’è il forte rischio che non sia presente nessuna copia dentro la frazione di rete! • Una copia esiste ma purtroppo è presente in una frazione non raggiungibile! L’algoritmo di ricerca risulta essere poco efficiente e occorre introdurre dei miglioramenti Sistemi Informativi LS A.A. 2005-2006

Alternative • Aumentare il valore di TTL • Questo comporta ampliare il numero di nodi che la query dovrà visitare • Tuttavia si rischia di allungare (anche drasticamente) il tempo di risposta (il protocollo prevede che al max sia di 60 sec.) • Introdurre gli ultrapeers: gruppo di peer al quale il client si lega per spedire i messaggi • Il flooding avviene tra ultrapeers Indicizzare i contenuti? Sistemi Informativi LS A.A. 2005-2006

PIERSearch • PIERSearch è un’applicazione che consente di pubblicare e ricercare oggetti nell’ambito di una rete P2P • Il suo motore di ricerca e il meccanismo di pubblicazione si appoggiano ad una rete strutturata basata su Distributed Hash Table (DHT) Sistemi Informativi LS A.A. 2005-2006

N1 Ogni nodo è responsabile di un insieme di chiavi “vicine” al suo ID N8 N56 Ad ogni nodo viene assegnato un ID K54 N51 N14 La rete ha una struttura ad anello N48 Ogni nodo conosce un certo numero di suoi vicini N21 Il lookup avviene per avvicinamenti successivi all’obiettivo Il nodo N8 cerca l’oggetto con chiave K54 N42 N38 Distributed Hash Table lookup(54) Sistemi Informativi LS A.A. 2005-2006

Il fileID è generato mediante una funzione di hash su tutti gli altri campi Pubblicazione di un contenuto • Per fornire la possibilità di query testuali su un overlay DHT PIERSearch fa uso di Inverted Index Sistemi Informativi LS A.A. 2005-2006

fileID fileID Query sui termini T1 e T2 Ricerca con PIER Risultati fileID Item(fileID,…) keyword = T1 keyword = T2 Inverted Inverted Sistemi Informativi LS A.A. 2005-2006

fileID Query ottimizzata sui termini T1 e T2(InvertedCache) Ricerca Risultati fileID Item(fileID,…) keyword = T2 keyword = T1 InvertedCache Sistemi Informativi LS A.A. 2005-2006

DHT: utilizzabile? • PIERSearch, usando DHT, garantisce recall deterministici tuttavia… • La fase di pubblicazione è complessa e può avere un overhead non trascurabile • La fase di ricerca può consumare notevoli quantità di banda • Occorre trasferire tra i peers le intere tabelle Inverted con tutti i risultati (parziali) della query Sistemi Informativi LS A.A. 2005-2006

Infrastruttura ibrida di ricerca • Una soluzione possibile per limitare l’overhead è creare un’infrastruttura ibridagnutella-PIERSearch • In questo modo: • Inizialmente si adotta il flooding (trovo i file “popolari”) • Se il flooding fallisce (dopo un timeout prefissato) scatta la ricerca con PIERSearch • Si costruisce un indice parziale per trovare i file rari • Nel DHT si tiene traccia solo dei nodi ultrapeer Ma quali contenuti indicizzare? Sistemi Informativi LS A.A. 2005-2006

Politiche di pubblicazione [1] • Query Result Size (QRS) • I file rari sono quelli presenti in result set piccoli • Si definisce il parametro Result Size Threshold • Oggetti rari non cercati non finiscono in cache • Term Frequency (TF) • Ogni nodo ibrido raccoglie statistiche temporali dal traffico di ricerca per determinare la frequenza delle keyword • Si definisce il parametro Term Frequency Threshold • Problema di file raro con keyword popolare Sistemi Informativi LS A.A. 2005-2006

Politiche di pubblicazione [2] • Term Pair Frequency (TPF) • Analoga alla precedente, ma che considera coppie di termini • Si definisce il parametro Term Pair Frequency Threshold • Sampling (SAM) • Si campionano i nodi vicini per stimare un limite inferiore del numero di repliche di ogni file • Si definisce il parametro Sample Threshold Sistemi Informativi LS A.A. 2005-2006

Test [1] Sistemi Informativi LS A.A. 2005-2006

Test [2] Sistemi Informativi LS A.A. 2005-2006

Problemi di modello • Tutti i nodi partecipano al query processing • Distribuzione random delle repliche e dei link tra i nodi. Repliche identiche non risiedono sullo stesso nodo • Costi totali del sistema sono dominati dall’overhead della comunicazione (misurato in n° di messaggi scambiati) Sistemi Informativi LS A.A. 2005-2006

Problemi di modello • L’orizzonte di ricerca è identico per tutte le query, indipendentemente dal numero di risultati ottenuti • Flooding “ideale”: broadcast efficiente che necessita di n-1 messaggi per raggiungere n nodi • Rete statica: non entrano né escono nuovi nodi Sistemi Informativi LS A.A. 2005-2006

Conclusioni • gnutella ottimizza la ricerca di file che hanno molte copie • PIERSearch al contrario ottimizza la ricerca di file rari • Creazione di un sistema ibrido di ricerca • Sfrutta le potenzialità migliori dei due sistemi • I test eseguiti verificano la fattibilità dell’approccio introdotto • Possibili miglioramenti • Rendere la rete strutturata • Migliorare il flooding Sistemi Informativi LS A.A. 2005-2006

Bibliografia • gnutella: http://gnutella.wego.com • Limewire:http://www9.limewire.com • PlanetLab: http://www.planet-lab.org/ • OpenDHT:Fixing the Embarrassing Slowness of OpenDHT on PlanetLabdi Sean Rhea, Byung-Gon Chun, John Kubiatowicz, and Scott Shenker • Funzionamento DHT: A Scalable Content-Addressable Networkdi Sylvia Ratnasamy, Paul Francis, Mark Handley, Richard Karp and Scott Shenker Sistemi Informativi LS A.A. 2005-2006

Fai 13! Votaci! Fine Sistemi Informativi LS A.A. 2005-2006

Enhancing P2P File-Sharing with an Internet-Scale Query Processor

Enhancing P2P File-Sharing with an Internet-Scale Query Processor

Presentation Transcript

BlueTorrent: P2P content sharing with Bluetooth

Performance Issues in P2P File Sharing Systems

Mobile P2P - Creating a mobile file-sharing environment

StreamGlobe: P2P Stream Sharing

Privacy-Preserving P2P Data Sharing with OneSwarm

P2P File Sharing in VANET

P2P File sharing with JXTA

File Sharing

Denial-of-Service Resilience in P2P File Sharing Systems

Spotlighting Decentralized P2P File Sharing

Efficient File Sharing P2P Network

MP2: P2P File Server

TazUP – P2P sharing protocol

File Sharing

Open Query File

Economics of P2P file-sharing systems

Condivisione file P2P

Privacy-Preserving P2P Data Sharing with OneSwarm

Proposal Pollution prevention in the P2P file sharing system

The Index Poisoning Attack in P2P File Sharing Systems

File Sharing

File Sharing