Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Εισαγωγικά • ΑΠ: αναπαράσταση, αποθήκευση, οργάνωση και προσπέλαση σε αντικείμενα πληροφορίας • Επίκεντρο η πληροφοριακή ανάγκη του χρήστη • Πληροφοριακή ανάγκη χρήστη: • Εντόπισε όλα τα κείμενα με πληροφορίες σχετικά με φοιτητές που (1) φοιτούν σε κάποια σχολή πληροφορικής, (2) συμμετέχουν σε κάποιο αθλητικό σύλλογο • Έμφαση δίνεται στην ανάκτηση πληροφορίας και όχι δεδομένων

Εισαγωγικά • Ανάκτηση Δεδομένων • Ποια κείμενα περιέχουν ένα σύνολο keywords? • Καλά ορισμένη σημασιολογία (semantics) • Ελάχιστα λανθασμένη απάντηση συνιστά αποτυχία! • Ανάκτηση Πληροφορίας • Το ερώτημα είναι ασαφές • Η σημασιολογία είναι συχνά ελλιπής • Μικρά λάθη είναι ανεκτά • Σύστημα ΑΠ: • Ερμηνεύει περιεχόμενα αντικειμένων πληροφορίας • Παράγειμίακατάταξη που αναπαριστά σχετικότητα • Έννοια σχετικότηταςπιο σημαντική από ακριβέςταίριασμα

Εισαγωγικά • ΑΠ τα τελευταία 30 χρόνια: • Ταξινόμηση (classification)και κατηγοριοποίηση(categorization) Κειμένων • Συστήματα Βιβλιοθήκης και γλώσσες • Διεπαφή χρηστών και οπτικοποίηση • Εντούτοις η περιοχή θεωρείτο στενού ενδιαφέροντος • Με την έλευση του Διαδικτύου: • Παγκόσμια αποθήκη γνώσης • Ελεύθερη (χαμηλού κόστους) προσπέλαση • Πολλά προβλήματα : ΑΠ προσφέρει λύσεις

Πεδία Εφαρμογής • Web Search Engines • Ψηφιακές Βιβλιοθήκες (Digital Libraries) • Ανάκτηση Στοιχείων σε Peer to Peer Περιβάλλοντα • Web Services • Βιοπληροφορική • Συστήματα Προσαρμοστικών Πολυμέσων/Υπερμέσων

Γειτονικές Περιοχές • Βάσεις Δεδομένων • Συστήματα Πολυμέσων • Τεχνητή Νοημοσύνη /Επεξεργασία Φυσικής Γλώσσας • Εξόρυξη Δεδομένων (Data Mining) • Τεχνικές Μοντελοποίησης • Δομές Δεδομένων • Συμπίεση Κειμένων • Συμπίεση Δομών Δεδομένων

Ανάκτηση Πληροφορίας • Τα τελευταία 50-60 χρόνια ως επιστημονικό πεδίο • 1945: Vannenar Bush’s “As we may think” • 1960+: Gerald Salton • 1978: Πρώτο ACM SIGIR συνέδριο • 1992: Πρώτο TREC συνέδριο

Unstructured (text) vs. structured (database) data in 1996

Unstructured (text) vs. structured (database) data in 2006

Μέθοδοι Προσέγγισης • Computer Centered View (Ανάκτηση Πληροφορίας) -Κτίσιμο δομών δεικτοδότησης - Γρήγορη Επεξεργασία Ερωτημάτων - Ποιοτικοί αλγόριθμοι κατάταξης • Human Centered View (Βιβλιοθηκονομία και Επιστήμη Πληροφορήσης) - Μελέτη βασικών αναγκών του χρήστη - Καταγραφή συμπεριφοράς χρήστη

Βασικές Έννοιες • Η Διεργασία του Χρήστη • Ανάκτηση (Retrieval) • Φυλλομέτρηση (Browsing) • Συνδυασμός (Hidden web)

Επεξεργασία Κειμένων • Σε τι format είναι; • pdf/word/excel/html? • Σε τι γλώσσα είναι; • Ποιο σύνολο χαρακτήρων χρησιμοποιεί; • Τα κείμενα μπορεί να περιέχουν όρους από διαφορετικές λέξεις • Τι είναι ένα μοναδιαίο κείμενο; • ένα αρχείο; • ένα e-mail; • ένα email μεεπισυνάψεις; • oμάδα αρχείων;

Λογική Όψη Κειμένων • Η αναπαράσταση των κειμένων (λογική όψη) μπορεί να πάρει διάφορες μορφές σε μία συνέχεια αναπαραστάσεων

Διεργασία Ανάκτησης

Τυπικός Ορισμός Μοντέλων Α.Π. Ένα μοντέλο ανάκτησης πληροφορίας είναι η τετράδα [D, Q,F, R(qi, dj)] όπου: 1) - Dείναι ένα σύνολο από λογικές αναπαραστάσεις για τα κείμενα της συλλογής 2) - Qείναι ένα σύνολο από λογικές αναπαραστάσεις για τις πληροφοριακές ανάγκες του χρήστη. Αυτές οι αναπαραστάσειςκαλούνται ερωτήματα 3) - Fείναι ένα υπόβαθρο για την μοντελοποίηση της αναπαράστασης των κειμένων, των ερωτημάτων και των σχέσεων μεταξύ τους - R(qi, dj) είναι μια συνάρτηση κατάταξης, η οποία συνδέει έναν πραγματικό αριθμό με ένα ερώτημα qiQκαι μια αναπαράσταση κειμένου djD. Μια τέτοια κατάταξη ορίζει μια διάταξη πάνω στα κείμενα πάντα με βάση το ερώτημα. qi.

Μοντέλα Α.Π.

Ανεστραμμένα Αρχεία Inverted file : Structure for the efficient location of the occurrences of aterm inside a text collection. Structure : Set of inverted lists, that are stored inside a file in a disk. Inverted list: a list that contains the occurrences of a term inside the texts of a collection Structure of an inverted list [3] <1,2><2,1><4,3> number of documents in the inverted listthat contain the specific term pair<d,fd,t> : the term appears in the document 1, twice Depending on the requirements of the application an inverted list record can contain various kinds of information (e.g. number of the paragraph where the term appearsetc.)

Ανεστραμμένα Αρχεία t1 Mapping terms to Inverted lists [3] <d1,1> <d2,1> <d3,2> [3] <d1,1> <d2,1> <d3,2> [2] <d1,1> <d2,1> [2] <d1,1> <d3,2> [2] <d1,1> <d2,1> t1 t2t3 t4 t5 Algorithm for Inverted File creation d1 t2 t2 t1 t3 t5 t3 d2 t4 t4 t2 t1 t4 t2 t1 t5 d3 Document Collection Inverted file

Παγκόσμιος Ιστός μεταβάλλεται ραγδαία WWW url καταλόγους (π.χ. Yahoo) Μηχανές Αναζήτησης τεράστιος, μη ομογενής επικοινωνιακό κόστος

Παγκόσμιος Ιστός • Τεράστιο μέγεθος • 2-10B στατικές σελίδες, διπλασιαζόμενες κάθε 8-12 μήνες • Μέγεθος Λεξικού: 10-100άδες εκατομμύρια λέξεις http://www.netcraft.com/Survey

Παγκόσμιος Ιστός • Γλώσσες/Κωδικοποιήσεις: • Εκατοντάδεςγλώσσες, W3C κωδικοποιήσεις: 55 • Σελίδες : Αγγλικές 82%, Επόμενες 15: 13% • Μεγάλος Ρυθμός Αλλαγής στις Σελίδες • Ανομοιογένεια στη μορφή: • Εκατομμύρια άνθρωποι δημιουργούν σελίδες με τη δικιά τους γραμματική, λεξικό, στυλ • Πολλές φορές οι σελίδες εξυπηρετούν εμπορικούς σκοπούς (marketing) • Μεγάλος Ρυθμός Αλλαγής στις Σελίδες • Επανάληψη της ίδιας πληροφορίας • Συντακτική επανάληψη (30-40% πανομοιότυπες) • Σημασιολογική ομοιότητα? • Υψηλή Συνεκτικότητα • Κατά μέσο όρο ~8 σύνδεσμοι/σελίδα • Πολύπλοκη τοπολογία γράφου • Bow-tie τοπολογία

Παγκόσμιος Ιστός • Συλλογή:Οι προσπελάσιμες σελίδες στον παγκόσμιο ιστό: στατικές + δυναμικές • Στόχος: Ανάκτηση υψηλής ποιότητας αποτελεσμάτωνπου να είναι σχετικά με τις ανάγκες του χρήστη • Ανάγκη • Πληροφοριακή – ενημέρωση για κάποια πληροφορία (~40%) • Απλής διαπέρασης – μετακίνηση σε μία σελίδα (~25%) • Transactional – πραγματοποίηση μίας συναλλαγής (web-mediated) (~35%) • Προσπέλαση υπηρεσίας • Κατέβασμα πληροφορίας • Αγορά • Υβριδικό • Εύρεση καλού hub • Διερευνητικό ψάξιμο “see what’s there”

Παγκόσμιος Ιστός • Στατικές σελίδες • κείμενο (html, xml), mp3, images, video, ... • Δυναμικές σελίδες = παράγονται κατ’απαίτηση • data base access • “the invisible web” • proprietary content, etc.

Κακώς σχηματισμένες ερωτήσεις μικρέςσε πλήθος όρων ανακριβείς όροι μη βέλτιστη σύνταξη (80% ερωτήματαχωρίςτελεστή) χαμηλή προσπάθεια Μεγάλη απόκλιση σε ανάγκες επίπεδα αναμονής γνώση bandwidth Τυπική συμπεριφορά Εστίαση στην πρώτη οθόνη, όχι feedback, ακολούθηση υπερδεσμών Παγκόσμιος Ιστός

Παγκόσμιος Ιστός Ποσότητες που μπορούν να μετρηθούν • Το σχετικό μέγεθος των μηχανών αναζήτησης • προβλήματα • επέκταση κειμένων: π.χ. το Google δεικτοδοτεί σελίδες που δεν έχουν γίνει crawl δεικτοδοτώντας anchor-text. • περιορισμός στα κείμενα: Μερικές μηχανές περιορίζουν το τι δεικτοδοτείται (πρώτεςnλέξεις, μόνο σχετικέςλέξεις κ.λ.π.) • Η κάλυψη μίας μηχανής σε σχέση με κάποια άλλη διεργασία crawling.

Τεχνικές Εκτίμησης Μεγέθους • Ιδανική στρατηγική: παρήγαγε ένα τυχαίο URL και έλεγξε αν εμπεριέχεται στις διάφορες δομές δεικτοδότησης. • Πρόβλημα: τυχαία URLs δεν βρίσκονται εύκολα • Πάρε δείγμα URLs τυχαία από κάθε μηχανή • 20,000 τυχαία URLs από κάθε μηχανή • Διατύπωσε random conjunctive query με <200 αποτελέσματα • Επέλεξε ένατυχαίοURL από τα κορυφαία 200 αποτελέσματα • Έλεγξε αν είναι παρόντα σε άλλες μηχανές • Query with 8 rarest words. Look for URL match • Υπολόγισε μέγεθος τομής

Τεχνικές Εκτίμησης Μεγέθους • Choose random searches extracted from a local log or build “random searches” • Use only queries with small results sets. • Count normalized URLs in result sets. • Use ratio statistics • Advantage: • Might be a good reflection of the human perception of coverage

…/~newbie/ www.ibm.com /…/…/leaf.htm Η Δομή του Παγκόσμιου Ιστού

Η Δομή του Παγκόσμιου Ιστού • Για τυχαίες σελίδεςp1,p2: • Pr[p1να προσπελαύνεται απόp2] ~ 1/4 • Μέγιστη απόσταση μεταξύ 2 SCC κόμβων: >28 • Μέση κατευθυνόμενη απόσταση μεταξύ2 κόμβων: ~16 • Μέση μη κατευθυνόμενη απόσταση: ~7

Power Laws - Γενικά • Δύο ποσότητες x και y συνδέονται με έναν power lawόταν y  x-c  log y = -c*log x

Ένας γνωστός power law • Κατανομή Zipf y : συχνότητα λέξης σε κείμενο x : o x-οστός πιο συχνός όρος Power law για c=1 y  1/x

Power laws και στο Web? • Broderet. al. 1999 x = #links που εισέρχονται σε σελίδα i y = #σελίδων με x εισερχόμενα links y  x-2.09

Power laws και στο Web? (συνέχεια) x = #links που εξέρχονται από σελίδα i y = #σελίδων με x εξερχόμενα links y  x-2.72

Χρησιμότητα Παρατήρησης • Βοηθάει στην κατανόηση και πρόβλεψη της εξέλιξης του Web • Βοηθάει στην κατασκευή νέων αλγορίθμων ταξινόμησης • Εκτέλεση προσομοιώσεων σε σχέση με το Web • Μοντελοποίηση του Web

Μοντελοποίηση Γραφήματος του Web • Kumar et. al. Stochastic models for the Web Graph, FOCS 2000 t+1 v Οι πρώτοι t κόμβοι του Web

Μοντελοποίηση Γραφήματος του Web • Για τον t+1 φτιάξε d συνδέσμους d>1 • Πως επιλέγεται ο ι-στος σύνδεσμος? Πιθανότητα 1-αο i-στός σύνδεσμος του v t+1 v Πιθανότητα αμια τυχαία σελίδα

Μοντελοποίηση Γραφήματος του Web • Όταν δημιουργείται μια σελίδα αυτή ανήκει σε ένα θέμα. • Μας ενδιαφέρει να αντιγράψουμε τους συνδέσμους μίας άλλης σελίδαςστο θέμα • Ή να εισάγουμε νέες ιδέες • Το μοντέλο ακολουθεί Power laws! • To μέσο πλήθος των σελίδων με βαθμό d είναι:

Επεκτάσεις • Εμπορικά πιο σημαντικέςεφαρμογές: • Enterprise search • Peer-2-Peer (P2P) search

Peer-to-Peer Δίκτυα • Όχι κεντρικός δεικτοδοτητής • Κάθε κόμβος στο διαδίκτυο κτίζει και διαχειρίζεται το δικό του δείκτη Παραδείγματα • Gnutella • Kazaa • Bearshare • Aimster • Grokster • Morpheus

Μηχανές Αναζήτησης • Πρώτη γενιά- χρήση μόνο “on page” δεδομένων κειμένου • Συχνότητα λέξεων, γλώσσα • Δεύτερη γενιά -- χρήση off-page, web-specific δεδομένων • Link (ή connectivity) ανάλυση • Click-through δεδομένα (σε ποια αποτελέσματα γίνεται click on) • Anchor-text (πως οι άνθρωποι αναφέρονται σε δεδομένα) • Τρίτη γενιά “καταγραφή ανάγκης πίσω από ερώτημα” • Σημασιολογική ανάλυση – σε τι αναφέρεται? • Εστίαση σε ανάγκες χρηστών και όχι ερωτήματα • Προσδιορισμός context • Βοήθεια στο χρήστη • Ολοκλήρωση ψαξίματος και ανάλυσης κειμένου

Μηχανές Πρώτης Γενιάς • Μοντέλο διανυσματικού χώρου και Επεκταμένο Boolean μοντέλο • Ταιριάσματα: exact, prefix, phrase,… • Τελεστές: AND, OR, AND NOT, NEAR, … • Πεδία: TITLE:, URL:, HOST:,… • Συνήθως ο τελεστής AND υλοποιείται πιο εύκολα, και πιθανώς να είναι προτιμητέα ως η εκ των προτέρων επιλογή για μικρά ερωτήματα • Διάταξη • TF παράγοντες: TF, άμεσα keywords, λέξεις σε τίτλους, άμεση έμφαση (headers), κ.λ.π. • IDF παράγοντες: IDF, συνολικός αριθμός λέξεων στο corpus, συχνότητα στο query log, συχνότητα στη γλώσσα

Μηχανές Δεύτερης Γενιάς • Κατάταξη - χρήση off-page, web-specific δεδομένων - Link (ή connectivity) ανάλυση - Click-through δεδομένα(σε ποια αποτελέσματα οι άνθρωποι εστιάζουν) - Anchor-text (πως οι άνθρωποι αναφέρονται σε μία σελίδα) • Crawling - Αλγόριθμοι δημιουργίας του καλύτερου δυνατού corpus

Μηχανές Τρίτης Γενιάς • Query language determinationand different ranking • Integration of Search and Text Analysis • Context determination • spatial (user location/target location) • query stream (previous queries) • personal (user profile) • Context use • Result restriction • Ranking modulation

Μηχανές Αναζήτησης

Διαπερνώντας το διαδίκτυο (Crawling) • ποιες σελίδες πρέπει να προσπελαστούν ; • τι γίνεται όταν το περιεχόμενο των σελίδων μεταβάλλεται ; • (refresh policy) • πως ελαχιστοποιείται ο φόρτος ; • πως η διαδικασία διαπέρασης γίνεται παράλληλα ;

Είδη Crawlers (Crawling) • Κλασσικός Crawler – επισκέπτεται ολόκληρο το παγκόσμιο ιστόκαι αντικαθιστάτη δομή δεικτοδότησης. • Περιοδικός Crawler – επισκέπτεται τμήματα του παγκοσμίου ιστού και ενημερώνει υποσύνολο δομής δεικτοδότησης • Αυξητικός Crawler – επιλεκτικά ψάχνει το παγκόσμιο Ιστό και αυξητικά μεταβάλλει τη δομή δεικτοδότησης. • Εστιασμένος Crawler – επισκέπτεται σελίδες που σχετίζονται με ένα συγκεκριμένο θέμα.

Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας Interest Driven

Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας Interest Driven & Ομοιότητα Κειμένων If Q is the user interest then: “A new approach to topic-specific web resource discovery” Chakrabarti et al. 8th WWW conference 1999

Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας Popularity Driven Location Driven

Context Graph Crawling • Context Graph: • Context graph created for each seed document . • Root is the seed document. • Nodes at each level show documents with links to documents at next higher level. • Updated during crawl itself . • Approach: • Construct context graph and classifiers using seed documents as training data. • Perform crawling using classifiers and context graph created.

Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Presentation Transcript