1 / 50

Αναζήτηση

Αναζήτηση. Ανδρέας Βέγλης. Εξέλιξη του WWW. Το World Wide Web  η πιο γρήγορα αναπτυσσόμενη υπηρεσία του διαδικτύου. ύπαρξη παγκοσμίως αρκετών εκατοντάδων εκατομμυρίων ιστοσελίδων. τεράστιος όγκος πληροφοριών + αναρχία που επικρατεί στο διαδίκτυο  μηχανισμός αναζήτησης ιστοσελίδων.

stella
Download Presentation

Αναζήτηση

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Αναζήτηση Ανδρέας Βέγλης

  2. Εξέλιξη του WWW • Το World Wide Web η πιο γρήγορα αναπτυσσόμενη υπηρεσία του διαδικτύου. • ύπαρξη παγκοσμίως αρκετών εκατοντάδων εκατομμυρίων ιστοσελίδων. • τεράστιος όγκος πληροφοριών + αναρχία που επικρατεί στο διαδίκτυο  μηχανισμός αναζήτησης ιστοσελίδων

  3. Αράχνες • Προγράμματα που ερευνούν συστηματικά το διαδίκτυο για ιστοσελίδες εξερευνώντας όλες τις συνδέσεις από ένα δικτυακό τόπο εκκίνησης, που περιλαμβάνει πολλές συνδέσεις με άλλες ιστοσελίδες. • Η ιδέα = κάθε ιστοσελίδα πρέπει να συνδέεται με κάποια άλλη.

  4. Αντιδράσεις • Πολλές αντιδράσεις • Τεράστια κίνηση στο δίκτυο • Οι περισσότεροι διαχειριστές τα αντιμετώπιζαν εχθρικά • Οι προγραμματιστές δημιουργούσαν όλο και περισσότερες αράχνες. • Έως το Δεκέμβριο του 1993 είχαν εμφανιστεί τρεις μηχανές αναζήτησης που χρησιμοποιούσαν αράχνες: JumpStation, the world Wide Web Worm, Repository Software Engineering (RBSE) spider.

  5. JumpStation-WWW Worm -RBSE • Το JumpStation  τίτλο και επικεφαλίδα των ιστοσελίδων • Ερευνούσε τη βάση γραμμικά, ταιριάζοντας λέξεις κλειδιά. • Το WWW Worm  τίτλους και τις διευθύνσεις των ιστοσελίδων. • Η σειρά των αποτελεσμάτων του JumpStation και του Worm ήταν τυχαία. • Η RBSE αράχνη ήταν η πρώτη που εφάρμοσε διαβάθμιση των αποτελεσμάτων με βάση τη σχέση τους με την αναζητούμενη λέξη.

  6. Ιστορικά στοιχεία (1/14) • Archie: • 1990 από τον Alan Emtage φοιτητή στο πανεπιστήμιο McGill του Μοντρεαλ. • Συνέλεγε διασκορπισμένα FTP sites και κατηγοριοποιούσε όλα τα αρχεία που έβρισκε. • Οι χρήστες υπέβαλαν ερωτήσεις και έτσι είχαν πρόσβαση στη βάση δεδομένων του.

  7. Ιστορικά στοιχεία (2/14) • Gopher: λειτουργεί παρόμοια με το FTP, αλλά αντί για αρχεία ασχολείται με έγγραφα. Οι διακομιστές Gopher περιλαμβάνουν έγγραφα απλού κειμένου (χωρίς εικόνες, χωρίς υπερκείμενο) που μπορούν οι χρήστες να κατεβάσουν. • Veronica: αναπτύχθηκε στο πανεπιστήμιο της Νεβάδα το 1993. Είχε παρόμοια λειτουργία αναζήτησης με το Archie αλλά απασχολούνταν με τα αρχεία Gopher. Μία άλλη μηχανή αναζήτησης με όνομα Jughead εμφανίστηκε λίγο αργότερα. Η λειτουργία της μηχανής ήταν παρόμοια με αυτή της Veronica.

  8. Ιστορικά στοιχεία (3/14) • Wanderer: • Matthew Gray ο δημιουργός • Μοιάζει σε μεγάλο βαθμό τις σημερινές μηχανές αναζήτησης. • Το πρώτο robot στο διαδίκτυο που είχε σχεδιαστεί για να καταγράφει την αύξηση του διαδικτύου. • Αρχικά αριθμούσε μόνο τους διακομιστές WWW • Γρήγορα άρχισε να καταγράφει τις διευθύνσεις URL. • Wandex την πρώτη βάση Web.

  9. Ιστορικά στοιχεία (4/14) • Aliweb • Ο Martijn Koster τον Οκτώβριο του 1993 • Δεν περιελάμβανε robot έρευνας. • Οι διαχειριστές δικτυακών τόπων δημοσιεύουν τις δικές τους πληροφορίες για κάθε ιστοσελίδα που επιθυμούν να περιλαμβάνεται στη λίστα.

  10. Ιστορικά στοιχεία (5/14) • Excite • Project Architext • 6 φοιτητές του πανεπιστημίου Standford το Φεβρουάριο του 1993. • Χρήση στατιστικής ανάλυσης σχέσεων λέξεων για να επιτύχουν αποτελεσματικότερη έρευνα στις τεράστιες πληροφορίες του διαδικτύου. • Έκδοση της μηχανής αναζήτησης για να τη χρησιμοποιήσουν οι διαχειριστές WWW στους δικούς τους δικτυακούς τόπους.

  11. Ιστορικά στοιχεία (6/16) • EINet Galaxy • Ο αρχαιότερος κατάλογος Web που μπορεί να ερευνηθεί. • Οργάνωση σε ιεραρχικές κατηγορίες και υποκατηγορίες. • Ενεργοποιήθηκε τον Ιανουάριο του 1994. • Gopher και Telnet και WWW.

  12. Ιστορικά στοιχεία (7/14) • Yahoo! • Απρίλιο του 1994 από δύο υποψήφιους διδάκτορες του πανεπιστημίου Stanford (David Filo, Jerry Yang). • Καθώς αυξανόταν ο αριθμός των συνδέσεων (που περιελάμβαναν οι ιστοσελίδες) και ο αριθμός των επισκέψεων, η ομάδα δημιούργησε τρόπους καλύτερης οργάνωσης των πληροφοριών. • Κατάλογος με δυνατότητα έρευνας. • Δεν είναι μηχανή αναζήτησης. • Αυτόματες διαδικασίες συλλογής και οργάνωσης.

  13. Ιστορικά στοιχεία (8/14) • WebCrawler • Επέτρεπε τον χρήστη να ερευνήσει όλο το κείμενο του εγγράφου. • Εργασία του Brian Pinkerton φοιτητή στο τμήμα Πληροφορικής του πανεπιστημίου της Ουάσιγκτον το 1994. • Δημιουργήθηκαν προβλήματα στο δίκτυο του πανεπιστημίου της Ουάσιγκτον.

  14. Ιστορικά στοιχεία (9/14) • Lycos • Πανεπιστήμιο Carnegie Mellon τον Ιούλιο του 1994. • Βασίστηκε σε ένα πρόγραμμα της Arpa που περιελάμβανε την επεξεργασία και προσπέλαση μεγάλων βάσεων δεδομένων κειμένου. • Παρείχε βαθμολογημένα με βάση τη σχετικότητα αποτελέσματα καθώς και word proximity bonuses. • Μεγάλο μέγεθος του κατάλογου του

  15. Ιστορικά στοιχεία (10/14) • Infoseek • Ιανουάριο του 1994 αλλά η διαθεσιμότητα του στο κοινό έγινε αρκετά αργότερα τον ίδιο χρόνο. • Δανειζόταν στοιχεία από τον Lycos και το Yahoo! • Πολύ φιλικό περιβάλλον διασύνδεσης και επιπλέον χαρακτηριστικά. • Συμφωνία με την Netscape το Δεκέμβριο του 1995.

  16. Ιστορικά στοιχεία (11/14) • AltaVista • Digital Equipment Δεκέμβριος 1995. • Αρκετούς υπολογιστές DEC Alphas • Δυνατότητα να δέχεται εκατομμύρια αιτήσεις της ημέρα χωρίς και παρουσιάζεται η παραμικρή καθυστέρηση στην απόκριση. • Χρησιμοποίησε ερωτήσεις σε φυσική γλώσσα καθώς • Προχωρημένες τεχνικές αναζήτησης όπως η χρήση τελεστών Boolean (AND, OR, NOT, κ.λ.π.).

  17. Ιστορικά στοιχεία (12/14) • AltaVista: • Δυνατότητα αναζήτησης όλων των δικτυακών τόπων που έχουν σύνδεση σε συγκεκριμένη διεύθυνση. • Εμφάνιζε συμβουλές κάτω από το πεδίο εισαγωγής, για να βοηθήσει τους χρήστες να διαμορφώσουν της ερώτησή

  18. Ιστορικά στοιχεία (13/14) • HotBot • Μάιος του 1996 - Inktomi Corporation • Συμπεριλήφθηκε στο δικτυακό τόπο του περιοδικού Wired, που ονομάζονταν HotWired. • Είναι η πιο δυνατή μηχανή αναζήτησης με την αράχνη της να μπορούσε να καταγράφει 10 εκατομμύρια ιστοσελίδες την ημέρα. • Αυτό είχε σαν αποτέλεσμα όλες οι διευθύνσεις που έδινε η μηχανή να είναι σε λειτουργία, πράγμα που δεν συμβαίνει με τα αποτελέσματα άλλων μηχανών αναζήτησης.

  19. Ιστορικά στοιχεία (14/14) • MetaCrawler • 1995, Eric Selburg, μεταπτυχιακό φοιτητή του Πανεπιστήμιου της Ουάσιγκτον. • Η πρώτη μεταμηχανή αναζήτησης. • Αναζήτηση ταυτόχρονα στις μηχανές Lycos, AltaVista, Yahoo!, Excite, WebCrawler και Infoseek.

  20. Google (1/2) • Το 1995 • Sergey Brin και Larry Page υποψήφιοι διδάκτορες της Επιστήμης των Υπολογιστών στο πανεπιστήμιο Stanford αναπτύσουν νέα τεχνολογία αναζήτησης • To 1997 δημιούργησαν τη μηχανή αναζήτησης BackRub που ήταν ο πρόγονος του Google.

  21. Google (2/2) • To 1998 ξεκινούν το Google. • 10.000 αιτήσεις για αναζήτηση κάθε μέρα. • Το 1999 η μηχανή αναζήτησης δεχόταν πλέον 3 εκατομμύρια αιτήσεις για αναζήτηση κάθε μέρα. • Το 2000 οι αιτήσεις έφταναν πλέον τα 60 εκατομμύρια ενώ το ευρετήριο του περιελάμβανε 1,3 δισεκατομμύρια ιστοσελίδες. • Το 2001 οι αιτήσεις ανέρχονταν σε 100 εκατομμύρια ενώ το ευρετήριο της μηχανής περιελάμβανε πλέον ιστοσελίδες σε 40 διαφορετικές γλώσσες, μεταξύ των οποίων και τα ελληνικά. • Ξεκίνησε η δυνατότητα αναζήτησης γραφικών.

  22. Αναζήτηση & πλοήγηση • Δύο μέθοδοι εύρεσης πληροφοριών. • Πλοήγηση: ο χρήστης ακολουθεί ένα μονοπάτι υπερ-συνδέσεων μεταξύ διαφορετικών ιστοσελίδων. • Αναζήτηση: ειδικό λογισμικό ταιριάζει τις λέξεις που εισάγει ο χρήστης με σχετικά έγγραφα στο διαδίκτυο.

  23. Πλοήγηση • Κατάλληλη όταν το διαδίκτυο ήταν σχετικά μικρό • Σήμερα χρονοβόρο • Μικρή πιθανότητα εύρεσης των πληροφοριών

  24. Μηχανές αναζήτησης & Θεματικοί κατάλογοι • Οι μηχανές αναζήτησης συλλέγουν μόνες τους πληροφορίες από το διαδίκτυο. • Διαθέτουν τεράστια ευρετήρια με τακτική ανανέωση χωρίς την παρέμβαση ανθρώπου. • Οι θεματικοί κατάλογοι επιτρέπουν την καταχώριση ιστοσελίδων από ανθρώπους. • Διαθέτουν πολύ καλή οργάνωση αλλά αρκετά λιγότερο υλικό από τις μηχανές αναζήτησης.

  25. Μηχανές αναζήτησης & Θεματικοί κατάλογοι

  26. Μηχανές αναζήτησης και θεματικοί κατάλογοι • Οι θεματικοί κατάλογοι προσφέρουν ένα πλαίσιο βασισμένο στο περιεχόμενο για δομημένη πλοήγηση • Οι μηχανές αναζήτησης επιτρέπουν την αναζήτηση για καθορισμένες από το χρήστη λέξεις κλειδιά ή φράσεις. • θεματικός κατάλογος - περιεχόμενα ενός βιβλίου • Μηχανή αναζήτησης - ευρετήριο.

  27. Κατηγορία υποκατηγορία υποκατηγορία υποκατηγορία υποκατηγορία υποκατηγορία Δομή κατηγοριών θεματικού καταλόγου

  28. λέξη κλειδί έγγραφο, θέση γάτα 3,4;9,2;1,2.. 2,4;14,2;7,3.. υπολογιστής 8,4;19,1;6,2.. πλανήτης Ευρετήριο μηχανής αναζήτησης

  29. Ορισμός μηχανής αναζήτησης • Είναι προγράμματα που επιτρέπουν την αναζήτηση με λέξεις-κλειδιά (keywords) σε τεράστιες βάσεις δεδομένων αρχείων του διαδικτύου. • Οι βάσεις δεδομένων περιέχουν αντίγραφα εκατομμυρίων ιστοσελίδων του World Wide Web που συλλέγονται αυτόματα από ειδικά προγράμματα, τα οποία μπορεί να έχουν διάφορες ονομασίες (spider, crawler, robot κλπ.), αλλά εκτελούν ουσιαστικά την ίδια εργασία. • Από τον τίτλο τους, το πλήρες κείμενο, το μέγεθος, το URL, κ.λ.π. δημιουργείται ένα ευρετήριο.

  30. Μέρη μηχανής αναζήτησης • Spider (ή Crawler ή Robot κλπ.) • Ευρετήριο (Index) • Μηχανισμό αναζήτησης

  31. Η αράχνη • Αράχνη-spider-robot • Ταυτόχρονη προσπέλαση – κατανομή • Μέθοδοι εύρεσης ιστοσελίδων • Φόρμα καταχώρισης διεύθυνσης • Εκμετάλλευση των υπερσυνδέσεων • Λίστα διευθύνσεων • Προγραμματισμός

  32. Ο μηχανισμός ευρετηρίου • Αποθήκευση κειμένου • Βάση δεδομένων • Δομή ανεστραμμένου ευρετηρίου • Stop words • Τελεστής εγγύτητας, φράση • Πλήρες κείμενο ή όχι?

  33. Ο μηχανισμός αναζήτησης • Διασύνδεση με τον χρήστη (φόρμα αναζήτησης) • Μηχανισμός αξιολόγησης του ερωτήματος και εντοπισμού των σχετικών ιστοσελίδων από την ΒΔ. • Μορφοποιητής αποτελεσμάτων

  34. Λειτουργία μηχανής αναζήτησης

  35. Τρόπος λειτουργίας μηχανής αναζήτησης • Διαθέτουν τον δικό τους δικτυακό τόπο στο διαδίκτυο. • Ο χρήστης πληκτρολογεί τις λέξεις-κλειδιά • Η μηχανή αναζήτησης επιστρέφει τα αποτελέσματα:

  36. Κόστος • Συνεχή αύξηση της υπολογιστικής ισχύος • Τακτική αναβάθμιση του εύρους των συνδέσεων της με το διαδίκτυο. • Χώρος αποθήκευσης ιστοσελίδων • Κόστος του μηχανισμού αναζήτησης • Κόστος της αράχνης

  37. Τρόποι περιορισμού κόστους • Περιορισμός του συνολικού αριθμού των ιστοσελίδων στο ευρετήριό τους. • Περιορισμός της συχνότητας των επισκέψεων στις ίδιες σελίδες • Περιορισμός της αράχνης σε ορισμένες περιοχές του διαδικτύου

  38. Αποτελέσματα των περιορισμών • Ιστοσελίδες που θα μπορούσαν να περιληφθούν στο ευρετήριο αγνοούνται. • Το WWW περιλαμβάνει μεγάλο όγκο πολλαπλών ιστοσελίδων με το ίδιο περιεχόμενο καθώς και ιστοσελίδες με κακόβουλο περιεχόμενο. • Εξισορρόπηση μεταξύ της απόρριψης προβληματικών ιστοσελίδων και της βεβαιότητας ότι όλες οι ιστοσελίδες με κατάλληλο υλικό θα ανεβρεθούν σε μία αναζήτηση • Καμία μηχανή δε θα μπορέσει ποτέ να καταγράψει πλήρως το διαδίκτυο.

  39. Χρόνος καταχώρισης ιστοσελίδας • Μεσολαβεί συνήθως κάποιο χρονικό διάστημα από τη στιγμή που δημοσιευτεί μία ιστοσελίδα στο διαδίκτυο, έως ότου η αράχνη την ανακαλύψει. • Μεσολαβεί κάποιο χρονικό διάστημα από τη στιγμή που η αράχνη ανακαλύψει για πρώτη φορά μία ιστοσελίδα, έως ότου την επισκεφτεί ξανά αναζητώντας τυχόν νέο περιεχόμενο.

  40. Απαιτήσεις και προσόντα χρήστη • Υπερβολικές προσδοκίες από τις ικανότητες των μηχανών αναζήτησης καθώς και από τις πληροφορίες που περιλαμβάνουν. • Χρήση μόνο λίγων λέξεων κλειδιών σε μία αναζήτηση. • Στατιστικά η πλειοψηφία των χρηστών εκτελεί δύο ή τρεις αναζητήσεις με λέξεις κλειδιά. • Σπάνια χρησιμοποιούνται τα ειδικά χαρακτηριστικά περιορισμού και ελέγχου των αποτελεσμάτων, που προσφέρουν όλες οι μηχανές αναζήτησης.

  41. Τεχνικές μηχανών αναζήτησης • Σύνολο από προκαθορισμένα από πριν αποτελέσματα για τις πιο δημοφιλείς αναζητήσεις. • Ρύθμιση/Ταξινόμηση των αποτελεσμάτων έτσι ώστε οι πιο δημοφιλείς ιστοσελίδες να εμφανίζονται στην κορυφή των αποτελεσμάτων της μηχανής. • Σε περίπτωση που ο χρήστης ασχοληθεί συστηματικά με τον τρόπο λειτουργίας των μηχανών αναζήτησης και μάθει να χρησιμοποιεί όλα τα χαρακτηριστικά τους, τα αποτελέσματα των αναζητήσεων του θα βελτιωθούν θεαματικά.

  42. Γρήγορα – σωστά αποτελέσματα. • Όλοι οι χρήστες περιμένουν αστραπιαία απόκριση από τις μηχανές αναζήτησης. • Για να ικανοποιήσουν αυτή την απαίτηση οι μηχανές αναζήτησης σπάνια επιτελούν ακριβή ανάλυση των αποτελεσμάτων που δίδουν. • Αυτό έχει σαν αποτέλεσμα περικοπή και παράλειψη πολλές φορές, σημαντικών αποτελεσμάτων. • Οι αυξήσεις όμως στην υπολογιστική ισχύ των μηχανών αναζήτησης καθώς και της ταχύτητας σύνδεσης τους με το διαδίκτυο, επιτρέπουν τις μηχανές αναζήτησης να χρησιμοποιούν πιο αποδοτικές τεχνικές χωρίς να θυσιάζουν την ταχύτητα παράδοσης των αποτελεσμάτων τους.

  43. Κατηγοριοποίηση υπηρεσιών αναζήτησης • Με κριτήριο τον τρόπο παρουσίασης των αποτελε-σμάτων, οι υπηρεσίες αναζήτησης διακρίνονται σε: • Μηχανές αναζήτησης πρώτης γενεάς • Μηχανές αναζήτησης δεύτερης γενεάς

  44. Τρόποι ιεράρχησης αποτελεσμάτων στις μηχανές αναζήτησης δεύτερης γενεάς • Να ομαδοποιήσουν τα αποτελέσματα σύμφωνα με το περιεχόμενο των δικτυακών τόπων. • Να ιεραρχήσουν τα αποτελέσματα σύμφωνα με τη δημοτικότητα των τόπων. • Να ομαδοποιήσουν τις ιστοσελίδες κάτω από την αρχική ιστοσελίδα ενός δικτυακού τόπου. • Να ιεραρχήσουν τα αποτελέσματα σύμφωνα με το είδος ή τον τύπο των τεκμηρίων. • Να δεχθούν ερωτήσεις σε φυσική γλώσσα και να δώσουν σαν αποτέλεσμα έτοιμες εκ των προτέρων απαντήσεις.

  45. Διευθύνσεις μηχανών αναζήτησης

  46. Κριτήρια ιεράρχησης αποτελεσμάτων σε μηχανή αναζήτησης (1/3) • Ιεραρχούν τα αποτελέσματα υπολογίζοντας την συνάφεια, το ποσοστό δηλαδή που δείχνει πόσο σχετικό είναι το περιεχόμενο μιας ιστοσελίδας με τις λέξεις-κλειδιά της αναζήτησης, ακολουθώντας μία σειρά από κανόνες, γνωστούς ως αλγόριθμους.

  47. Κριτήρια ιεράρχησης αποτελεσμάτων σε μηχανή αναζήτησης (2/3) • Να περιέχουν τον όρο της αναζήτησης στον τίτλο, στην πρώτη επικεφαλίδα ή στις πρώτες παραγράφους κειμένου. • Συχνότητα με την οποία εμφανίζονται οι όροι της αναζήτησης σε μία ιστοσελίδα σε σχέση με άλλες λέξεις. • Τα meta tags (εντολές της γλώσσας προγραμματισμού HTML) δεν εξασφαλίζουν μια υψηλή θέση στην ιεράρχηση των αποτελεσμάτων.

  48. Κριτήρια ιεράρχησης αποτελεσμάτων σε μηχανή αναζήτησης (3/3) • Αναλύοντας πως οι ιστοσελίδες συνδέονται μεταξύ τους, η μηχανή αναζήτησης μπορεί να προσδιορίσει το θέμα μιας σελίδας και πόσο σημαντική θεωρείται. • Δημοτικότητα ιστοσελίδας.

  49. Τύποι αρχείων • Σημαντική βοήθεια στη μείωση του αριθμού των αποτελεσμάτων που δίνει μία μηχανή αναζήτησης είναι ο περιορισμός των τύπων των αρχείων καθώς και της γλώσσας.

  50. Περιορισμός γλώσσας • Ο περιορισμός της γλώσσας είναι επίσης μία πολύ σημαντική παράμετρος, ειδικά όταν οι λέξεις κλειδιά που εισάγουμε είναι αγγλικές. • Ο περιορισμός για αναζητήσεις μόνο σε αρχεία στα αγγλικά οδηγεί στο σημαντικό περιορισμό των αποτελεσμάτων, καθώς απορρίπτονται αρχεία σε διαφορετική γλώσσα που περιλαμβάνουν τις λέξεις κλειδιά.

More Related