1 / 32

Ανάκτηση Πληροφορίας Το Διανυσματικό μοντέλο

Ανάκτηση Πληροφορίας Το Διανυσματικό μοντέλο. Boolean Μοντέλο. Απλό, βασίζεται στη Θεωρία Συνόλων Διατύπωση ερωτημάτων ως λογικές εκφράσεις ακριβής σημαντική ( exact semantics) απλός φορμαλισμός q = ka  (kb   kc) To keyword είναι είτε παρόν είτε απόν wij  {0,1}

mari
Download Presentation

Ανάκτηση Πληροφορίας Το Διανυσματικό μοντέλο

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ανάκτηση Πληροφορίας Το Διανυσματικό μοντέλο

  2. Boolean Μοντέλο • Απλό, βασίζεται στη Θεωρία Συνόλων • Διατύπωση ερωτημάτων ως λογικές εκφράσεις • ακριβής σημαντική (exact semantics) • απλός φορμαλισμός • q = ka  (kb  kc) • To keyword είναι είτε παρόν είτε απόνwij  {0,1} • Για παράδειγμα • q = ka  (kb  kc) • vec(qdnf) = (1,1,1)  (1,1,0)  (1,0,0) • vec(qcc) = (1,1,0) ένα conjunctive component Τμήμα Πληροφορικής ΑΠΘ

  3. Ka Kb (1,1,0) (1,0,0) (1,1,1) Kc Boolean Μοντέλο • q = ka  (kb  kc) • sim(q,dj) = 1 if  vec(qcc) | (vec(qcc)  vec(qdnf))  (ki, gi(vec(dj)) = gi(vec(qcc))) • 0 otherwise Τμήμα Πληροφορικής ΑΠΘ

  4. Μειονεκτήματα Boolean Μοντέλου • Δεν υπάρχει υποστήριξη για μερική ταύτιση (partial matching) • Δεν υπάρχει βαθμολόγηση των αποτελεσμάτων. • Η ερώτηση πρέπει να διατυπωθεί με λογική έκφραση, το οποίο δεν είναι πάντα εύκολο για όλους τους χρήστες. • Τα ερωτήματα που διατυπώνονται είναι τις περισσότερες φορές πολύ απλοϊκά. • Επομένως, το boolean μοντέλο άλλοτε επιστρέφει πάρα πολλά κείμενα και άλλοτε πάρα πολύ λίγα. Τμήμα Πληροφορικής ΑΠΘ

  5. Μέθοδοι Υπολογισμού Ομοιότητας Μέθοδοι υπολογισμού ομοιότητας:μετρούν το βαθμό ομοιότητας μεταξύ ενός ερωτήματος και των εγγράφων. Ομοιότητα Έγγραφα Ερώτημα Σημειώστε τη διαφορά με τις μεθόδους που υποστηρίζουν μόνο επακριβή αναζήτηση (exact match). Για παράδειγμα, στο Boolean μοντέλο ένα κείμενο χαρακτηρίζεται είτε σχετικό είτε άσχετο ως προς το ερώτημα. Τμήμα Πληροφορικής ΑΠΘ

  6. Χρήση Καταλόγων Κατάλογος Έγγραφα Ερώτημα Μηχανισμός υπολογισμού ομοιότητας μεταξύ ερωτήματος και εγγράφων της συλλογής. Λίστα εγγράφων με σειρά βαθμού ομοιότητας Τμήμα Πληροφορικής ΑΠΘ

  7. Το Βασικό Πρόβλημα Πρόβλημα:Πόσο μοιάζουν δύο έγγραφα; Ιδέα:Όσο περισσότερες κοινές λέξεις έχουν δύο κείμενα, τόσο περισσότερο μοιάζουν. Παράδειγμα: Έστω τα ακόλουθα έγγραφα. Πόσο μοιάζουν μεταξύ τους; d1 ant ant bee d2 dog bee dog hog dog ant dog d3 cat gnu dog eel fox Τμήμα Πληροφορικής ΑΠΘ

  8. Διανυσματικό Μοντέλο: δυαδικά βάρη Ο χώρος των όρων Αποτελείται από mδιαστάσεις, όπου m είναι ο αριθμός των μοναδικών όρων που χρησιμοποιούνται στα έγγραφα. Διάνυσμα Το έγγραφο djαναπαρίσταται ως διάνυσμα με συντεταγμένες wij (όρος i, έγγραφο j). wij = 1αν ο i-οστός όρος εμφανίζεται στοdj wij = 0 διαφορετικά Τμήμα Πληροφορικής ΑΠΘ

  9. Διανυσματικό Μοντέλο: δυαδικά βάρη t3 διάνυσμα εγγράφου d1 w31 t2 w11 w21 t1 Τμήμα Πληροφορικής ΑΠΘ

  10. Διανυσματικό Μοντέλο: δυαδικά βάρη document text terms d1ant ant beeant bee d2dog bee dog hog dog ant dogant bee dog hog d3cat gnu dog eel foxcat dog eel fox gnu ant bee cat dog eel fox gnu hog d1 1 1 d2 1 1 1 1 d3 1 1 1 1 1 3 διανύσματα 8 διαστάσεις wij = 1 αν το djπεριέχει τον i-οστό όρο Τμήμα Πληροφορικής ΑΠΘ

  11. Ομοιότητα Εγγράφων t3 Η ομοιότητα μεταξύ δύο εγγράφων υπολογίζεται με βάση τη γωνία που σχηματίζεται μεταξύ των δύο αντίστοιχων διανυσμάτων. Πιο συγκεκριμένα, χρησιμοποιείται το συνημίτονο της γωνίας θ. d1 d2 t2  t1 Τμήμα Πληροφορικής ΑΠΘ

  12. Μαθηματικές Έννοιες x = (x1, x2, x3, ..., xn) διάνυσμαστο χώρο των nδιαστάσεων Μέτροτουx δίνεται με βάση το Πυθαγόρειο θεώρημα |x|2 = x12 + x22 + x32 + ... + xn2 Ανx1και x2είναι διανύσματα: Εσωτερικό Γινόμενο (dot product) δίνεται από: x1.x2 = x11x21 + x12x22 +x13x23 + ... + x1nx2n Συνημίτονο γωνίαςμεταξύ των διανυσμάτωνx1 and x2: cos () = x1.x2 |x1| |x2| Τμήμα Πληροφορικής ΑΠΘ

  13. Παράδειγμα: δυαδικά βάρη ant bee cat dog eel fox gnu hog length d1 1 1 2 d2 1 1 1 1 4 d3 1 1 1 1 1 5 Τμήμα Πληροφορικής ΑΠΘ

  14. Παράδειγμα: δυαδικά βάρη Πίνακας ομοιότητα εγγράφων d1d2d3 d1 1 0.71 0 d20.71 1 0.22 d3 0 0.22 1 Τμήμα Πληροφορικής ΑΠΘ

  15. Ομοιότητα Ερωτήματος-Εγγράφου t3 Η ομοιότητα μεταξύ ενός ερωτήματος qκαι ενός εγγράφου dπροσδιορίζεται πάλι με το συνημίτονο της μεταξύ τους γωνίας. Στην πράξη, ένα ερώτημα έχει πολύ μικρότερο μήκος από ένα έγγραφο q d t2  t1 Τμήμα Πληροφορικής ΑΠΘ

  16. Ομοιότητα Ερωτήματος-Εγγράφου ερώτημα qant dog έγγραφαπεριεχόμεναδιαφορετικοί όροι d1ant ant beeant bee d2dog bee dog hog dog ant dogant bee dog hog d3cat gnu dog eel foxcat dog eel fox gnu ant bee cat dog eel fox gnu hog q 1 1 d1 1 1 d2 1 1 1 1 d3 1 1 1 1 1 Ο πίνακας έχει μηδενικά στις υπόλοιπες θέσεις. Τμήμα Πληροφορικής ΑΠΘ

  17. Ομοιότητα Ερωτήματος-Εγγράφου d1d2d3 q 1/2 1/√2 1/√10 0.5 0.71 0.32 Με βάση το ερώτημα και τα έγγραφα του παραδείγματος το έγγραφο που χαρακτηρίζεται περισσότερο σχετικό ως προς qείναι το d2, μετά το d1και τέλος το d3. Τμήμα Πληροφορικής ΑΠΘ

  18. Χρήση του Διανυσματικού Μοντέλου Ερώτημα με κατώφλι (περιοχής) Για το ερώτημα q το σύστημα επιστρέφει όλα τα έγγραφα που έχουν βαθμό ομοιότητας μεγαλύτερο από κάποιο κατώφλι (π.χ., > 0.6). Ερώτημα top-k Για το ερώτημα qτο σύστημα επιστρέφει τα kέγγραφα που έχουν το μεγαλύτερο βαθμό ομοιότητας ως προς το q. Τμήμα Πληροφορικής ΑΠΘ

  19. Μερικά Σύμβολα Τμήμα Πληροφορικής ΑΠΘ

  20. Γενίκευση: μη δυαδικά βάρη • Το Διανυσματικό Μοντέλο βελτιώνεται με την εισαγωγή επιπλέον πληροφορίας για τον προσδιορισμό των βαρών wij. • Μερικές από τις πληροφορίες αυτές είναι οι εξής: • Το πλήθος των εγγράφων που περιέχουν τον όρο, • Πόσες φορές εμφανίζεται ένας όρος σε ένα έγγραφο, • Το μήκος των εγγράφων. Τμήμα Πληροφορικής ΑΠΘ

  21. Διανυσματικό Μοντέλο: μη δυαδικά βάρη Ο χώρος των όρων Αποτελείται από mδιαστάσεις, όπου m είναι ο αριθμός των μοναδικών όρων που χρησιμοποιούνται στα έγγραφα. Διάνυσμα Το έγγραφο djαναπαρίσταται ως διάνυσμα με συντεταγμένες wij (όρος i, έγγραφο j). wij > 0αν ο i-οστός όρος εμφανίζεται στο dj wij = 0 διαφορετικά Η τιμή wijορίζεται ως το βάρος του i-οστού όρου στο j-οστό έγγραφο. Τμήμα Πληροφορικής ΑΠΘ

  22. Προσδιορισμός Βαρών Η γενική μορφή προσδιορισμού των βαρών wijείναι: wij = TFij x IDFi Όπου TFijείναι ένας παράγοντας που εξαρτάται από τη συχνότητα εμφάνισης του i-οστού όρου στο j-οστό έγγραφο. Ο παράγοντας IDFiεξαρτάται από το πλήθος των εγγράφων που περιέχουν τον όρο ti. Τμήμα Πληροφορικής ΑΠΘ

  23. Προσδιορισμός Βαρών Στη βιβλιογραφία έχουν προταθεί διάφοροι μαθηματικοί τύποι υπολογισμού των ποσοτήτωνTFκαι IDF (και κατά συνέπεια των βαρών wij). Έστω, N συνολικός αριθμός εγγράφων ni αριθμός εγγράφων που περιέχουν τον όρο ti freq(i,j) συχνότητα εμφάνισης του όρου ti στο έγγραφοdj Ο κανονικοποιημένοςπαράγονταςμπορεί να υπολογιστεί ως: TFij = freq(i,j) / maxl(freq(l,j)) Το μέγιστο υπολογίζεται από όλους τους όρουςπου περιέχονται στοdj O παράγοντας IDFi μπορεί ναυπολογιστεί ως: IDFi = log (N/ni) Ο λογάριθμος χρησιμοποιείται για να γίνουν οι τιμές συγκρίσιμες. Τμήμα Πληροφορικής ΑΠΘ

  24. Προσδιορισμός Βαρών Εναλλακτικές μορφές του TFt,d Τμήμα Πληροφορικής ΑΠΘ

  25. Προσδιορισμός Βαρών Εναλλακτικές μορφές του IDFt Τμήμα Πληροφορικής ΑΠΘ

  26. Προσδιορισμός Βαρών Εναλλακτικές μορφές του Ld, Lq Τμήμα Πληροφορικής ΑΠΘ

  27. Προσδιορισμός Βαρών Εναλλακτικές μορφές υπολογισμού ομοιότητας Τμήμα Πληροφορικής ΑΠΘ

  28. Ένα Παράδειγμα Συγκεκριμένου Μοντέλου Τμήμα Πληροφορικής ΑΠΘ

  29. Παράδειγμα Υπολογισμού Ομοιότητας Έστω το ερώτημα q = {κομήτης, Χάλεϋ} που αποτελείται από δύο όρους t1 = κομήτης και t2 = Χάλλεϋ Ενδιαφερόμαστε για το βαθμό ομοιότητας του ερωτήματος qμε καθένα από τα έγγραφα της συλλογής εγγράφων D … Τμήμα Πληροφορικής ΑΠΘ

  30. Παράδειγμα Υπολογισμού Ομοιότητας d1 : Ο κομήτης του Χάλλεϋ μας επισκέπτεται περίπου κάθε εβδομήντα έξι χρόνια. d2: Ο κομήτης του Χάλλεϋ πήρε το όνομά του από τον αστρονόμo ΈντμοντΧάλλεϋ. d3: Ένας κομήτης διαγράφει ελλειπτική τροχιά. d4: Ο πλανήτης Άρης έχει δύο φυσικούς δορυφόρους, το Δείμο καιτο Φόβο. d5: Ο πλανήτης Δίας έχει 63 γνωστούς φυσικούς δορυφόρους. d6: Ένας κομήτης έχει μικρότερη διάμετρο από ότι ένας πλανήτης. d7: Ο Άρης είναι ένας πλανήτης του ηλιακού μας συστήματος. Συλλογή εγγράφων Τμήμα Πληροφορικής ΑΠΘ

  31. + και - • Πλεονεκτήματα: • Η χρήση βαρών βελτιώνει την ποιότητα του αποτελέσματος • Η μερική ταύτιση επιτρέπει την ανάκτηση εγγράφων τα οποία προσεγγίζουν τη συνθήκη της ερώτησης. • Η χρήση του συνημιτόνου (cosine ranking formula)ταξινομεί τα έγγραφα με βάση την ομοιότητά τους ως προς το ερώτημα. • Μειονεκτήματα: • Το μοντέλο υποθέτει ότι οι όροι είναι ανεξάρτητοι μεταξύ τους (η εμφάνιση ενός όρου δεν επηρεάζει την εμφάνιση ενός άλλου), κάτι που απλοποιεί την κατάσταση, όμως δεν ισχύει γενικά. Τμήμα Πληροφορικής ΑΠΘ

  32. Σύνοψη • Το διανυσματικό μοντέλο αποτελεί το πιο διαδεδομένο στα συστήματα ανάκτησης. • Βασίζεται στη διανυσματική αναπαράσταση των εγγράφων (κάθε έγγραφο είναι ένα διάνυσμα σε έναν d-διάσταστο χώρο, όπου dο αριθμός των όρων). • Υπάρχουν πολλοί τρόποι προσδιορισμού των βαρών wij. • Η απόδοση της κάθε μεθόδου εξαρτάται από τη συλλογή που χρησιμοποιείται και από τα ερωτήματα. Τμήμα Πληροφορικής ΑΠΘ

More Related