1 / 54

Μοντελοποίηση

Μοντελοποίηση. Μοντέλα IR που έχουν προταθεί και χρησιμοποιούνται από υπάρχοντα συστήματα. Ταξινόμηση Μοντέλων IR. Συνολοθεωρητικά Fuzzy Extended Boolean. Κλασικά Μοντέλα Boolean Vector Probabilistic. Retrieval. Αλγεβρικά Generalized Vector Latend Semantic Neural Networks.

marie
Download Presentation

Μοντελοποίηση

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Μοντελοποίηση Μοντέλα IR που έχουν προταθεί και χρησιμοποιούνται από υπάρχοντα συστήματα.

  2. Ταξινόμηση Μοντέλων IR Συνολοθεωρητικά Fuzzy Extended Boolean Κλασικά Μοντέλα Boolean Vector Probabilistic Retrieval Αλγεβρικά Generalized Vector Latend Semantic Neural Networks Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Πιθανοτικά Inference Network Belief Network Browsing Flat Structure Guided Hypertext Browsing Ανάκτηση Πληροφορίας

  3. Λέξεις Κλειδιά Πλήρες Κείμενο Πλήρες Κείμενο + Δομή Retrieval Κλασικά Συνολ/κά Πιθανοτικά Κλασικά Συνολ/κά Πιθανοτικά Δομικά Browsing Flat Flat Hypertext Structure Guided Hypertext Συσχέτιση Μοντέλων, Όψεων, Λειτουργιών Λογική Όψη Κειμένου Λειτουργίες Ανάκτηση Πληροφορίας

  4. Τύποι Ανάκτησης Ad-Hoc Η βάση των κειμένων παραμένει σχετικά σταθερή και στο σύστημα εισέρχονται νέα ερωτήματα (queries). Filtering Τα ερωτήματα παραμένουν σταθερά και νέα κείμενα εισέρχονται στη βάση. Ανάκτηση Πληροφορίας

  5. Ανάκτηση Ad Hoc Q1 Q2 Συλλογή Σταθερού Μεγέθους Q3 Q4 Q5 Ανάκτηση Πληροφορίας

  6. Ad Hoc vs Filtering Docs Filtered for User 2 User 2 Profile User 1 Profile Docs for User 1 Documents Stream Ανάκτηση Πληροφορίας

  7. Χαρακτηριστικά Μοντέλων IR Ένα μοντέλο IR χαρακτηρίζεται από: • D, σύνολο λογικών όψεων κειμένων • Q, σύνολο λογικών όψεων ερωτημάτων • F, πλαίσιο μοντελοποίησης κειμένων, ερωτημάτων και συσχετισμών τους • R(q,d), συνάρτηση βαθμολόγησης Ανάκτηση Πληροφορίας

  8. Λέξεις Κλειδιά (Keywords) Χρησιμοποιούνται σαν αντιπρόσωποι όλου του κειμένου και βοηθούν στη σύντομη περιγραφή του κειμένου (περίληψη). Απαιτείται προσοχή στην επιλογή τους, έτσι ώστε τα κείμενα να διαχωρίζονται κατάλληλα. Ανάκτηση Πληροφορίας

  9. Παράδειγμα Κείμενο 2 Κείμενο 3 Κείμενο 1 … η γεωργική επανάσταση … η βιομηχανική επανάσταση … η επανάσταση υψηλής τεχνολογίας Η επιλογή της λέξης επανάσταση σαν λέξη κλειδί για τα τρία κείμενα δημιουργεί πρόβλημα. Γιατί; Ανάκτηση Πληροφορίας

  10. Παρατήρηση Όλες οι λέξεις κλειδιά δεν έχουν την ίδια βαρύτητα για τις προτιμήσεις των χρηστών. Κάποιες λέξεις μπορεί να είναι σημαντικές ενώ κάποιες άλλες λιγότερο σημαντικές. Έστω kiμία λέξη κλειδί και djένα κείμενο. Το βάρος ορίζεται ως w(ki,dj) >= 0 και δηλώνει το πόσο σημαντική είναι η λέξη κλειδί σε σχέση με το κείμενο. Ανάκτηση Πληροφορίας

  11. Ορισμός Έστω tαριθμός των keywords και K={k1,…,kt} το σύνολο των keywords. Εάν το keyword kiδεν εμφανίζεται στο κείμενο djτότε w(ki,dj)=0. Διαφορετικά, w(ki,dj) > 0. Άρα σε κάθε κείμενο djαντιστοιχεί ένα διάνυσμα βαρών (w1,j, w2,j, …, wt,j). Ανάκτηση Πληροφορίας

  12. Κλασικά Μοντέλα IR • Κάθε κείμενο αντιπροσωπεύεται από ένα σύνολο χαρακτηριστικών λέξεων (keywords). • Ένα keyword είναι χρήσιμο για να θυμόμαστε το βασικό θέμα του κειμένου. • Συνήθως τα keywords είναι ουσιαστικά, τα οποία από μόνα τους έχουν νόημα. • Ωστόσο, οι μηχανές αναζήτησης θεωρούν ότι όλες οι λέξεις του κειμένου είναι keywords (full text representation) Ανάκτηση Πληροφορίας

  13. Κλασικά Μοντέλα IR • κi ένα keyword (index term) • dj ένα κείμενο • t συνολικός αριθμός keywords • K = {k1, k2, …, kt} σύνολο keywords • wij >= 0 βάρος μεταξύ(ki,dj) • wij = 0 το keyword δε βρίσκεται στο κείμενο • vec(dj) = (w1j, w2j, …, wtj) διάνυσμα που σχετίζεται με το κείμενοdj • gi(vec(dj)) = wij συνάρτηση που επιστρέφει το βάρος που σχετίζεται με το(ki,dj) Ανάκτηση Πληροφορίας

  14. Boolean Μοντέλο • Απλό, βασίζεται στη θεωρία συνόλων • Διατύπωση ερωτημάτων ως λογικές εκφράσεις • ακριβής σημαντική (exact semantics) • απλός φορμαλισμός • q = ka  (kb  kc) • To keyword είναι είτε παρόν είτε απόνwij  {0,1} • Για παράδειγμα • q = ka  (kb  kc) • vec(qdnf) = (1,1,1)  (1,1,0)  (1,0,0) • vec(qcc) = (1,1,0) ένα conjunctive component Ανάκτηση Πληροφορίας

  15. Ka Kb (1,1,0) (1,0,0) (1,1,1) Kc Boolean Μοντέλο • q = ka  (kb  kc) • sim(q,dj) = 1 if  vec(qcc) | (vec(qcc)  vec(qdnf))  (ki, gi(vec(dj)) = gi(vec(qcc))) • 0 otherwise Ανάκτηση Πληροφορίας

  16. Μειονεκτήματα Boolean Μοντέλου • Δεν υπάρχει υποστήριξη για μερική ταύτιση (partial matching) • Δεν υπάρχει βαθμολόγηση των αποτελεσμάτων. • Η ερώτηση πρέπει να διατυπωθεί με λογική έκφραση, το οποίο δεν είναι πάντα εύκολο για όλους τους χρήστες. • Τα ερωτήματα που διατυπώνονται είναι τις περισσότερες φορές πολύ απλοϊκά. • Επομένως, το boolean μοντέλο άλλοτε επιστρέφει πάρα πολλά κείμενα και άλλοτε πάρα πολύ λίγα. Ανάκτηση Πληροφορίας

  17. Διανυσματικό Μοντέλο • Ορίζουμε: • wij > 0 ότανki  dj • wiq >= 0 σχετίζεται με το ζεύγος (ki,q) • vec(dj) = (w1j, w2j, ..., wtj) vec(q) = (w1q, w2q, ..., wtq) • Με κάθε ki σχετίζουμε ένα μοναδιαίο διάνυσμαvec(i) • Τα vec(i) και vec(j) είναι ορθοκανονικά (ανεξάρτητα μεταξύ τους) • Τα t μοναδιαία διανύσματα vec(i)σχηματίζουν μία κανονική βάση του χώρου με tδιαστάσεις. • Στο χώρο αυτό, κείμενα και ερωτήματα εμφανίζονται σαν διανύσματα βαρών. Ανάκτηση Πληροφορίας

  18. Διανυσματικό Μοντέλο j dj  q Sim(q,dj) = cos() = [vec(dj)  vec(q)] / |dj| * |q| = [ wij * wiq] / |dj| * |q| Εφόσονwij > 0 καιwiq > 0, 0 <= sim(q,dj) <=1 Επιτρέπεται η ανάκτηση κειμένου ακόμη και όταν αυτό δεν περιέχει όλα τα keywords (partial match). i Ανάκτηση Πληροφορίας

  19. Διανυσματικό Μοντέλο • Sim(q,dj) = [ wij * wiq] / |dj| * |q| • Πως μπορούμε να υπολογίσουμε τα βάρηwij και wiq ? • Χρησιμοποιούνται τα ακόλουθα μεγέθη: • Ομοιότητα μεταξύ των κειμένων(similarity) • tf factor, term frequencyμέσα στο κείμενο • Ανομοιότητα μεταξύ των κειμένων(dissimilarity) • idf factor, inverse document frequency • wij = tf(i,j) * idf(i) Ανάκτηση Πληροφορίας

  20. Διανυσματικό Μοντέλο • Έστω, • N συνολικός αριθμός κειμένων • ni αριθμός κειμένων που περιέχουν το keyword ki • freq(i,j) συχνότητα εμφάνισης του ki στο κείμενοdj • Ο κανονικοποιημένοςtf factor ορίζεται: • f(i,j) = freq(i,j) / maxl(freq(l,j)) • Το μέγιστο υπολογίζεται από όλα τα keywordsπου βρίσκονται στοdj • O idf factor υπολογίζεται: • idf(i) = log (N/ni) • Ο λογάριθμος χρησιμοποιείται για να γίνουν οι τιμές συγκρίσιμες. Ανάκτηση Πληροφορίας

  21. Διανυσματικό Μοντέλο • Τα καλύτερα μοντέλα βαρών προκύπτουν από τη σχέση: • wij = f(i,j) * log(N/ni) • Η τεχνική καλείταιtf-idf weighting scheme • Για τα βάρη τωνkeywords στο ερώτημα μία καλή πρόταση: • wiq = (0.5 + [0.5 * freq(i,q) / max(freq(l,q)]) * log(N/ni) • Το διανυσματικό μοντέλο με χρήση τουtf-idf είναι μία πολύ καλή τεχνική για τη βαθμολόγηση των αποτελεσμάτων. Ανάκτηση Πληροφορίας

  22. Διανυσματικό Μοντέλο • Πλεονεκτήματα: • Η χρήση βαρών βελτιώνει την ποιότητα του αποτελέσματος • Η μερική ταύτιση επιτρέπει την ανάκτηση κειμένων τα οποία προσεγγίζουν τη συνθήκη της ερώτησης. • Η χρήση του συνημιτόνου (cosine ranking formula)ταξινομεί τα κείμενα με βάση την ομοιότητά τους ως προς το ερώτημα. • Μειονεκτήματα: • Το μοντέλο υποθέτει ότι τα keywordsείναι ανεξάρτητα μεταξύ τους, κάτι που απλοποιεί την κατάσταση, όμως δεν ισχύει πάντα. Ανάκτηση Πληροφορίας

  23. k2 k1 d7 d6 d2 d4 d5 d3 d1 k3 Διανυσματικό Μοντέλο: Παράδειγμα I Ανάκτηση Πληροφορίας

  24. k2 k1 d7 d6 d2 d4 d5 d3 d1 k3 Διανυσματικό Μοντέλο: Παράδειγμα II Ανάκτηση Πληροφορίας

  25. k2 k1 d7 d6 d2 d4 d5 d3 d1 k3 Διανυσματικό Μοντέλο: Παράδειγμα III Ανάκτηση Πληροφορίας

  26. Πιθανοτικό Μοντέλο • Στόχος: να ορίσουμε το IR πρόβλημα σε πιθανοτικό πλαίσιο • Για κάθε user query υπάρχει ένα ιδανικό σύνολο κειμένων που το ικανοποιεί. • Η ερώτηση επεξεργάζεται με βάση τις ιδιότητες αυτού του συνόλου. • Ποιες είναι όμως αυτές οι ιδιότητες; • Αρχικά γίνεται μία πρόβλεψη και στη συνέχεια η πρόβλεψη βελτιώνεται. Ανάκτηση Πληροφορίας

  27. Πιθανοτικό Μοντέλο • Αρχικά επιστρέφεται ένα σύνολο κειμένων. • Ο χρήστης εξετάζει τα κείμενα αναζητώντας σχετικά κείμενα. • Το σύστημα IR χρησιμοποιεί το feedback του χρήστη ώστε να προσδιοριστεί καλύτερα το ιδανικό σύνολο κειμένων. • Η διαδικασία επαναλαμβάνεται. • Η περιγραφή του ιδανικού συνόλου κειμένων πραγματοποιείται πιθανοτικά. Ανάκτηση Πληροφορίας

  28. Πιθανοτικό Μοντέλο • Έστω ερώτημα qκαι κείμενο dj. Το πιθανοτικό μοντέλο προσπαθεί να προσδιορίσει την πιθανότητα το κείμενο djνα είναι χρήσιμο στο χρήστη. • Το μοντέλο θεωρεί ότι αυτή η πιθανότητα εξαρτάται μόνο από το ερώτημα και το κείμενο djμόνο. • Πώς υπολογίζονται οι πιθανότητες; • Ποιός είναι ο δειγματοχώρος; • Δυαδικά βάρη wi,j{0,1}wi,q{0,1} R σύνολο σχετικών κειμένων σύνολο μη σχετικών κειμένων Ανάκτηση Πληροφορίας

  29. Πιθανοτικό Μοντέλο πιθανότητα djσχετικό με q πιθανότητα dj μη σχετικό με q Ορίζουμε : Aπό τον κανόνα του Bayes : πιθανότητα να επιλέξουμε το djαπό το R Ανάκτηση Πληροφορίας

  30. Πιθανοτικό Μοντέλο Πιθανότητα το kiβρίσκεται σε ένα κείμενο που επιλέγεται τυχαία από το σύνολο R Ανάκτηση Πληροφορίας

  31. Πιθανοτικό Μοντέλο Ισχύει ότι: Χρησιμοποιώντας λογάριθμους παίρνουμε: Ανάκτηση Πληροφορίας

  32. Αρχική Εκτίμηση Αρχικά χρησιμοποιούμε τις παρακάτω σχέσεις Έστω ότι επιστρέφεται ένα σύνολο κειμένων V. Ορίζουμε ως Viτο υποσύνολο των κειμένων που περιέχουν το keyword ki. Ανάκτηση Πληροφορίας

  33. Πλεονεκτήματα-Μειονεκτήματα • Πλεονεκτήματα: • 1. Απλό μοντέλο • 2. Τα κείμενα ταξινομούνται σε φθίνουσα διάταξη ως προς την πιθανότητα να είναι σχετικά • Μειονεκτήματα: • 1. Χρειάζεται να μαντέψουμε • 2. Δε λαμβάνεται υπ’ όψιν η συχνότητα εμφάνισης • 3. Θεωρεί ότι τα keywords είναι ανεξάρτητα Ανάκτηση Πληροφορίας

  34. Σύγκριση Κλασικών Μοντέλων • Το Boolean μοντέλο είναι το πιο απλό αλλά και το λιγότερο ακριβές. Στηρίζεται σε θεωρία συνολών και ο τρόπος διατύπωσης των ερωτήσεων είναι απλός, σε σχέση με τα άλλα μοντέλα. • Δεν υπάρχει απόδειξη ότι το πιθανοτικό μοντέλο είναι καλύτερο από το διανυσματικό (και το αντίστροφο). • Το διανυσματικό μοντέλο είναι αυτό που χρησιμοποιείται περισσότερο σε συστήματα IR και μηχανές αναζήτησης. Ανάκτηση Πληροφορίας

  35. Σύνοψη • Βασικά στοιχεία IR • Διαφορές DR και IR • Μοντέλο boolean • Διανυσματικό μοντέλο • Πιθανοτικό μοντέλο Ανάκτηση Πληροφορίας

  36. Πιθανοτικό Μοντέλο • Στόχος: να ορίσουμε το IR πρόβλημα σε πιθανοτικό πλαίσιο • Για κάθε user query υπάρχει ένα ιδανικό σύνολο κειμένων που το ικανοποιεί. • Η ερώτηση επεξεργάζεται με βάση τις ιδιότητες αυτού του συνόλου. • Ποιες είναι όμως αυτές οι ιδιότητες; • Αρχικά γίνεται μία πρόβλεψη και στη συνέχεια η πρόβλεψη βελτιώνεται. Ανάκτηση Πληροφορίας

  37. Πιθανοτικό Μοντέλο • Αρχικά επιστρέφεται ένα σύνολο κειμένων. • Ο χρήστης εξετάζει τα κείμενα αναζητώντας σχετικά κείμενα. • Το σύστημα IR χρησιμοποιεί το feedback του χρήστη ώστε να προσδιοριστεί καλύτερα το ιδανικό σύνολο κειμένων. • Η διαδικασία επαναλαμβάνεται. • Η περιγραφή του ιδανικού συνόλου κειμένων πραγματοποιείται πιθανοτικά. Ανάκτηση Πληροφορίας

  38. Πιθανοτικό Μοντέλο • Έστω ερώτημα qκαι κείμενο dj. Το πιθανοτικό μοντέλο προσπαθεί να προσδιορίσει την πιθανότητα το κείμενο djνα είναι χρήσιμο στο χρήστη. • Το μοντέλο θεωρεί ότι αυτή η πιθανότητα εξαρτάται μόνο από το ερώτημα και το κείμενο djμόνο. • Πώς υπολογίζονται οι πιθανότητες; • Ποιός είναι ο δειγματοχώρος; • Δυαδικά βάρη wi,j{0,1}wi,q{0,1} R σύνολο σχετικών κειμένων σύνολο μη σχετικών κειμένων Ανάκτηση Πληροφορίας

  39. Πιθανοτικό Μοντέλο πιθανότητα djσχετικό με q πιθανότητα dj μη σχετικό με q Ορίζουμε : Aπό τον κανόνα του Bayes : πιθανότητα να επιλέξουμε το djαπό το R Ανάκτηση Πληροφορίας

  40. Πιθανοτικό Μοντέλο Πιθανότητα το kiβρίσκεται σε ένα κείμενο που επιλέγεται τυχαία από το σύνολο R Ανάκτηση Πληροφορίας

  41. Πιθανοτικό Μοντέλο Ισχύει ότι: Χρησιμοποιώντας λογάριθμους παίρνουμε: Ανάκτηση Πληροφορίας

  42. Αρχική Εκτίμηση Αρχικά χρησιμοποιούμε τις παρακάτω σχέσεις Έστω ότι επιστρέφεται ένα σύνολο κειμένων V. Ορίζουμε ως Viτο υποσύνολο των κειμένων που περιέχουν το keyword ki. Ανάκτηση Πληροφορίας

  43. Πλεονεκτήματα-Μειονεκτήματα • Πλεονεκτήματα: • 1. Απλό μοντέλο • 2. Τα κείμενα ταξινομούνται σε φθίνουσα διάταξη ως προς την πιθανότητα να είναι σχετικά • Μειονεκτήματα: • 1. Χρειάζεται να μαντέψουμε • 2. Δε λαμβάνεται υπ’ όψιν η συχνότητα εμφάνισης • 3. Θεωρεί ότι τα keywords είναι ανεξάρτητα Ανάκτηση Πληροφορίας

  44. Σύγκριση Κλασικών Μοντέλων • Το Boolean μοντέλο είναι το πιο απλό αλλά και το λιγότερο ακριβές. Στηρίζεται σε θεωρία συνολών και ο τρόπος διατύπωσης των ερωτήσεων είναι απλός, σε σχέση με τα άλλα μοντέλα. • Δεν υπάρχει απόδειξη ότι το πιθανοτικό μοντέλο είναι καλύτερο από το διανυσματικό (και το αντίστροφο). • Το διανυσματικό μοντέλο είναι αυτό που χρησιμοποιείται περισσότερο σε συστήματα IR και μηχανές αναζήτησης. Ανάκτηση Πληροφορίας

  45. Συνολοθεωρητικά Μοντέλα Fuzzy Extended Boolean

  46. Συνολοθεωρητικά Μοντέλα • Το Boolean μοντέλο χρησιμοποιεί 0 και 1 για να περιγράψει τη σχετικότητα ενός κειμένου. • Πώς μπορούμε να επεκτείνουμε το μοντέλο ώστε να υποστηρίζει μερική ταύτιση και βαθμολόγηση κειμένων. • Μελετούμε δύο συνολοθεωρητικά μοντέλα: • Fuzzy Set Model • Extended Boolean Model Ανάκτηση Πληροφορίας

  47. Fuzzy Set Μοντέλο • Κείμενα και ερωτήματα αναπαριστώνται με keywords. • Τα αποτελέσματα είναι approximateεξ’ αρχής. • Αυτό μοντελοποιείται χρησιμοποιώντας ένα fuzzy πλαίσιο, ως εξής: • σε κάθε keyword αντιστοιχεί έναfuzzy σύνολο • κάθε κείμενο έχει ένα βαθμό μέλους (membership) στο fuzzy σύνολο • Παρουσιάζουμε το μοντέλο που προτάθηκε από τους Ogawa, Morita, και Kobayashi (1991) Ανάκτηση Πληροφορίας

  48. Fuzzy SetΘεωρία Πλαίσιο αναπαράστασης κλάσεων των οποίων τα όρια δεν είναι σαφώς προσδιορισμένα. Η βασική ιδέα είναι να χρησιμοποιήσουμε το βαθμό συμμετοχής (degree of membership) για τα μέλη ενός συνόλου Ο βαθμός αυτός είναι μεταξύ 0 και 1 Άρα, η συμμετοχή ενός αντικειμένου σε ένα σύνολο παίρνει ασαφή έννοια, σε αντίθεση με το κλασικό boοlean μοντέλο Ανάκτηση Πληροφορίας

  49. Fuzzy SetΘεωρία • Ορισμός: • Ένα fuzzy υποσύνολο A του U χαρακτηρίζεται από μία συνάρτηση συμμετοχής (membership function) (A,u) : U  [0,1] η οποία συσχετίζει κάθε στοιχείοuτου Uμε έναν αριθμό μ(u)μεταξύ 0 και 1. • Ορισμός: • Έστω A και B δύο fuzzy υποσύνολα του U. Επίσης, έστω ¬A το συμπλήρωμα του A. Τότε, • (¬A,u) = 1 - (A,u) • (AB,u) = max((A,u), (B,u)) • (AB,u) = min((A,u), (B,u)) Ανάκτηση Πληροφορίας

  50. Fuzzy Ανάκτηση Πληροφορίας • Fuzzy sets μοντελοποιούνται με βάση θυσαυρό • Ο θυσαυρός χτίζεται ως εξής: • vec(c) term-term πίνακας συσχέτισης (correlation matrix) • c(i,l) κανονικοποιημένος παράγοντας συσχέτισης για το (ki,kl): • c(i,l) = n(i,l)ni + nl - n(i,l) • ni: πλήθος κειμένων που περιέχουν το ki • nl: πλήθος κειμένων που περιέχουν το kl • n(i,l): πλήθος κειμένων που περιέχουν το ki και το kl • Έτσι περιγράφεται η γειτονικότητα (proximity) μεταξύ των keywords. Ανάκτηση Πληροφορίας

More Related