1 / 22

ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ

ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ. Βουχάρα Τάνια(6306Μ002) Εισαγωγικά Θέματα World Wide Web Χειμερινό εξάμηνο 2006-07. Εισαγωγικά. Ραγδαία εξάπλωση Διαδικτύου > συνεχής μεταβολή και αύξηση του όγκου της πληροφορίας. Εμπορικές, εκπαιδευτικές, ενημερωτικές και ψυχαγωγικές χρήσεις.

azra
Download Presentation

ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ Βουχάρα Τάνια(6306Μ002) Εισαγωγικά Θέματα World Wide Web Χειμερινό εξάμηνο 2006-07

  2. Εισαγωγικά • Ραγδαία εξάπλωση Διαδικτύου > συνεχής μεταβολή και αύξηση του όγκου της πληροφορίας. Εμπορικές, εκπαιδευτικές, ενημερωτικές και ψυχαγωγικές χρήσεις. • Αύξηση των χρηστών > πρόβλημα ευρέσεως της χρήσιμης ή επιθυμητής πληροφορίας. • Μηχανές Αναζήτησης: εργαλεία για την αναζήτηση της πληροφορίας στον Ιστό. • Ενδεικτικά: Google, Yahoo!, Ask.com, MSN Search, Robby, Anazitisis.

  3. Ιστορική αναδρομή • 1990 – 1992 > Archie, Gopher, Veronica. • 1993 > WebCrawler. • 1994 > Yahoo, Lycos. • 1995 > AltaVista, Infoseek, Excite αλλά και οι πρώτες μετα-μηχανές MetaCrawler, SavvySearch. • 1996 > Inktomi, HotBot. • 1997 > AskJeeves (απ’ το 2005 Ask.com), Northern Light. • 1998 > Google, MSN Search (Windows Live Search).

  4. Λειτουργία Μ.Α. (1)Δομή • Spider (ή Crawler ή Robot) > πρόγραμμα υπεύθυνο για τον εντοπισμό των ιστοσελίδων. Αφού τις «διαβάσει» ακολουθεί τους συνδέσμους (links) των ιστοσελίδων αυτών προς άλλες. • Indexers > σαρώνουν τις ιστοσελίδες που εντοπίζουν οι spiders αξιολογώντας το κείμενο, τα links και άλλα στοιχεία και κρατούν ένα αντίγραφο στη βάση δεδομένων (index) της Μ.Α. • Query processor > ψάχνει στη βάση δεδομένων της Μ.Α για να βρει ιστοσελίδες σχετικές με τις λέξεις – κλειδιά που πληκτρολόγησε ο χρήστης.

  5. Λειτουργία Μ.Α.(2)Καταχώρηση ιστοσελίδων 4 τρόποιγια την καταχώρηση ενός web site σε μία Μ.Α. • «Χειρωνακτικά» από τον ιδιοκτήτη του δικτυακού τόπου. • Με τη βοήθεια ειδικών προγραμμάτων (π.χ. SignPoster). • Να βρει η Μ.Α. την ιστοσελίδα μόνη της μέσω συνδέσμων από άλλους δικτυακούς τόπους, που δείχνουν προς αυτήν. • Να πληρώσει ο ιδιοκτήτης του web site την εταιρεία της Μ.Α. Ωστόσο, διαφορετικές προϋποθέσεις θέτει η εκάστοτε Μ.Α. για να συμπεριλάβει μία ιστοσελίδα στον κατάλογό της.

  6. Λειτουργία Μ.Α.(3) • Ο χρήστης πληκτρολογεί στο ενδεδειγμένο πεδίο λέξεις – κλειδιά. Δυνατότητα χρήσης τελεστών(Booleans): AND, OR, NOT, NEAR. Advanced Search. • Η Μ.Α. δεν ψάχνει τον Ιστό αλλά τη δική της βάση δεδομένων. • Τα αποτελέσματα επιστρέφονται στο χρήστη με τη μορφή μίας λίστας με links στις αντίστοιχες σελίδες.

  7. Λειτουργία Μ.Α.(4)Κριτήρια ιεράρχησης αποτελεσμάτων • Κάθε Μ.Α. χρησιμοποιεί αλγόριθμους ταξινόμησης. Ο ακριβής τρόπος λειτουργίας τους δεν είναι γνωστός. Γενικά, παίζουν ρόλο τα εξής: • Συνάφεια (τοποθεσία και συχνότητα λέξεων – κλειδιών σε μία ιστοσελίδα) > φυσικά ή οργανικά αποτελέσματα. • Ανάλυση υπερσυνδέσεων. • Δημοτικότητα μιας ιστοσελίδας (link popularity). • Ποιότητα περιεχομένου ιστοσελίδας. • Πληρωμένη καταχώρηση (Paid Inclusion, Paid Search, Pay Per Click).

  8. PageRank αλγόριθμος • Αλγόριθμος με βάση τον οποίο το Google αναλύει τον τρόπο διασύνδεσης των ιστοσελίδων. • Αξιολογεί τη σημαντικότητα μιας ιστοσελίδας με βάση τα inbound(τα links που κατευθύνονται προς μία ιστοσελίδα) και outbound (τα links μιας ιστοσελίδας που οδηγούν σε άλλες) links. • Ευάλωτο σε έξωθεν χειρισμούς.

  9. Search Engine Optimization • S.E.O. τεχνικές: μέθοδοι προώθησης ιστοσελίδων μέσω της ευνοϊκής τους κατάταξης στις Μ.Α. White hat S.E.O. > αποδεκτές τεχνικές. Black hat S.E.O. • Cloaking • Τοποθέτηση κρυμμένου κειμένου • Χρήση doorway ή gateway σελίδων • Spamdexing (Link Farms, Page Hijacking) • Google Bombing

  10. Google Bombing

  11. Το αόρατο διαδίκτυο (Deep Web) • Deep Web ή Invisible Web ή Deepnet: περιεχόμενο του Ιστού που οι crawlers αδυνατούν να προσπελάσουν. 2 με 3 φορές μεγαλύτερο απ’ το «ορατό» Διαδίκτυο. Πηγές Deep Web • Δυναμικές ιστοσελίδες. • Ιστοσελίδες χωρίς inbound links. • Περιεχόμενο περιορισμένης πρόσβασης. • Μη-κειμενικό περιεχόμενο. • JavaScript ή Flash περιεχόμενο.

  12. Θεματικοί Κατάλογοι(Directories) • Ο εντοπισμός, η αξιολόγηση και η κατάταξη των δικτυακών τόπων γίνεται από ομάδα ατόμων υπεύθυνη γι’ αυτή την εργασία. • Δεν εγγράφουν όλες τις ιστοσελίδες στην ίδια βάση δεδομένων αλλά τις κατατάσσουν σε θεματικές κατηγορίες. • Συνήθως, οι υπηρεσίες αναζήτησης είναι «υβριδικές» (hybrid) > μορφές μεταξύ Μ.Α. και Θ.Κ.

  13. Μεταμηχανές Αναζήτησης • Δεν διαθέτουν δικό τους ευρετήριο αλλά αντλούν τα αποτελέσματα τους από τα ευρετήρια άλλων μηχανών αναζήτησης. • Παραδείγματα: DogPile, SavvySearch, MetaCrawler. • Πλεονεκτήματα: ευρεία κάλυψη θέματος, επιστροφή απαντήσεων σε ασαφείς ερωτήσεις που μία απλή μηχανή μπορεί να «χάσει». • Μειονεκτήματα: ενδείκνυνται για απλές αναζητήσεις.

  14. Δημοφιλείς Μηχανές ΑναζήτησηςΣυγκριτική Παρουσίαση

  15. Βελτιώσεις / Εξελίξεις • Προσπάθεια σάρωσης του Deep Web > Yahoo! Subscriptions, Google’ s Sitemap Protocol. • Δυνατότητα για προσωποποίηση των αποτελεσμάτων π.χ. Google Desktop. • Προσπάθεια αντιμετώπισης του spamdexing > ομαδοποιημένα αποτελέσματα (clustered results), κριτήριο “nofollow” (Google, 2005). • The Search Wikia Project: δεν θα στηρίζεται σε αλγόριθμους ταξινόμησης αλλά τα αποτελέσματα θα διαμορφώνονται από τους χρήστες.

  16. Κριτική / Μειονεκτήματα(1) • Μόνο ένα μικρό μέρος του Ιστού επισκέπτονται οι spiders. • Δυσκολία στη διάκριση μεταξύ νέας και ήδη επεξεργασμένης πληροφορίας. • Μέσος χρόνος επίσκεψης κάθε κόμβου μέχρι και 6 μήνες > broken links, χάνεται η νέα πληροφορία. • Επικίνδυνες ιστοσελίδες στα αποτελέσματα (έρευνα McAfee). • H ιεράρχηση των αποτελεσμάτων επηρεάζεται και από διαφημιστικές πρακτικές. • Ποιότητα δεδομένων > η πληροφορία δεν ελέγχεται.

  17. Κριτική / Μειονεκτήματα(2) • Υπερβολική πρόσβαση στην πληροφορία (π.χ. πορνογραφικά sites). • Ελλιπής πρόσβαση στην πληροφορία (π.χ. δυναμικές ιστοσελίδες, HTTPS URLs). • Λογοκρισία (π.χ. Κίνα). • Έλλειψη διαφάνειας – ο τρόπος λειτουργίας των αλγορίθμων είναι μυστικός. • Καταπάτηση ατομικών ελευθεριών.

  18. Κοινωνικές διαστάσεις • Μ.Α > πρόσβαση στη γνώση και την πληροφορία. Δεν αποτελούν μόνο τεχνικά φαινόμενα, εμπλέκονται σε κοινωνικές διαδικασίες. • «Βάσεις δεδομένων» που αντικατοπτρίζουν τις προθέσεις (“databases of intentions”) και την κουλτούρα των χρηστών. Επιπτώσεις στους τομείς της διαφήμισης και των επιχειρήσεων. (John Batelle, 2005). • Η καταχώρηση ή μη ενός web site στο index μιας Μ.Α. και η θέση του στα αποτελέσματα > οικονομικές, κοινωνικές, πολιτικές και επιστημονικές επιπτώσεις.

  19. Πηγές(1) • Feldman S.,(2002). This is what I asked for? The searching quarmire. In Mintz A., Web of deception. Information Today, Inc. • http://daphne.palomar.edu/TGSEARCH/ • http://www.sciam.com/article.cfm?chanID=sa006&articleID=0006304A-37F4-11E8-B7F483414B7F0000 • http://www.pandia.com/goalgetter/index.html • http://www.searchenginehistory.com/ • http://pacific.jour.auth.gr/totsidou/Search_Engines.htm • http://www.searchenginemarketing.gr/search-engine-marketing-terms.htm • http://www.go-online.gr/ebusiness/specials/article.html?article_id=231 • http://www.inertia.gr/whatSE.html • http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/FindInfo.html

  20. Πηγές(2) • http://www.sciam.com/article.cfm?chanID=sa006&articleID=0006304A-37F4-11E8-B7F483414B7F0000&pageNumber=6&catID=2 • http://www.imerisia.gr/article.asp?catid=4775&subid=2&pubid=274491 • http://en.wikipedia.org/wiki/Search_engine • http://en.wikipedia.org/wiki/Spamdexing • http://jcmc.indiana.edu/vol12/issue3/hargittai.html • http://jcmc.indiana.edu/vol12/issue3/vaughan.html • http://jcmc.indiana.edu/vol12/issue3/vancouvering.html • http://www.netmode.ntua.gr/courses/postgraduate/edi/ergasies2006/SEO.pdf • http://e-rooster.gr/10/2006/350

More Related