1 / 14

Ανάκτηση Πληροφορίας Το Boolean μοντέλο

Ανάκτηση Πληροφορίας Το Boolean μοντέλο. Μοντέλα IR. Κλασικά Μοντέλα - Boolean - Vector - Probabilistic. Συνολοθεωρητικά - Fuzzy - Extended Boolean. Αλγεβρικά - Generalized Vector - Latent Semantic - Neural Networks. Πιθανοτικά - Inference Network - Belief Network.

ilar
Download Presentation

Ανάκτηση Πληροφορίας Το Boolean μοντέλο

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ανάκτηση Πληροφορίας Το Booleanμοντέλο

  2. Μοντέλα IR Κλασικά Μοντέλα - Boolean - Vector - Probabilistic Συνολοθεωρητικά - Fuzzy - Extended Boolean Αλγεβρικά -Generalized Vector - Latent Semantic - Neural Networks Πιθανοτικά - Inference Network - Belief Network Τμήμα Πληροφορικής ΑΠΘ

  3. Χαρακτηριστικά Μοντέλων IR Ένα μοντέλο IR χαρακτηρίζεται από: • D, σύνολο λογικών όψεων κειμένων • Q, σύνολο λογικών όψεων ερωτημάτων • F, πλαίσιο μοντελοποίησης κειμένων, ερωτημάτων και συσχετισμών τους • R(q,d), συνάρτηση βαθμολόγησης Τμήμα Πληροφορικής ΑΠΘ

  4. Λέξεις Κλειδιά (Keywords) Χρησιμοποιούνται σαν αντιπρόσωποι όλου του κειμένου και βοηθούν στη σύντομη περιγραφή του κειμένου (περίληψη). Απαιτείται προσοχή στην επιλογή τους, έτσι ώστε τα κείμενα να διαχωρίζονται κατάλληλα. Το πλήθος των όρων είναι συνήθως μεγάλο και προηγείται απαλοιφή τετριμμένων λέξεων (π.χ., άρθρα, σύνδεσμοι κλπ) Τμήμα Πληροφορικής ΑΠΘ

  5. Παράδειγμα Κείμενο 2 Κείμενο 3 Κείμενο 1 … η γεωργική επανάσταση … η βιομηχανική επανάσταση … η επανάσταση υψηλής τεχνολογίας Η επιλογή της λέξης επανάσταση σαν λέξη κλειδί για τα τρία κείμενα δημιουργεί πρόβλημα. Γιατί; Τμήμα Πληροφορικής ΑΠΘ

  6. Παρατήρηση Όλες οι λέξεις κλειδιά (αλλιώς όροι) δεν έχουν την ίδια βαρύτητα για τις προτιμήσεις των χρηστών. Κάποιες λέξεις μπορεί να είναι σημαντικές ενώ κάποιες άλλες λιγότερο σημαντικές. Έστω tiένας όρος και djένα έγγραφο. Το βάρος του όρου ti στο έγγραφο djσυμβολίζεται ως w(ti,dj) >= 0 (ή απλούστερα wij) και δηλώνει το πόσο σημαντικός είναι ο όρος ti σε σχέση με το έγγραφοdj. Τμήμα Πληροφορικής ΑΠΘ

  7. Ορισμός Έστω mαριθμός των όρων και Τ={t1,…,tm} το σύνολο των μοναδικών όρων. Εάν ο όρος tiδεν εμφανίζεται στο έγγραφο djτότε w(ti,dj)=0. Διαφορετικά, w(ki,dj) > 0. Άρα σε κάθε κείμενο djαντιστοιχεί ένα m-διάστατο διάνυσμα βαρών (w1,j, w2,j, …, wm,j). Τμήμα Πληροφορικής ΑΠΘ

  8. Κλασικά Μοντέλα IR • Κάθε κείμενο αντιπροσωπεύεται από ένα σύνολο χαρακτηριστικών λέξεων (keywords). • Ένα keyword είναι χρήσιμο για να θυμόμαστε το βασικό θέμα του κειμένου. • Συνήθως τα keywords είναι ουσιαστικά, τα οποία από μόνα τους έχουν νόημα. • Ωστόσο, οι μηχανές αναζήτησης θεωρούν ότι όλες οι λέξεις του κειμένου είναι keywords (full text representation) Τμήμα Πληροφορικής ΑΠΘ

  9. Κλασικά Μοντέλα IR • tiένας όρος(index term, keyword) • djένα έγγραφο • mσυνολικός αριθμόςόρων • T = {t1, t2, …, tm}σύνολο keywords • wij >= 0βάρος μεταξύti, dj • wij = 0το tiδε βρίσκεται στο έγγραφοdj • vec(dj) = (w1j, w2j, …, wtj)διάνυσμα που σχετίζεται με το έγγραφοdj • gi(vec(dj)) = wijσυνάρτηση που επιστρέφει το βάρος που σχετίζεται με ταtiκαιdj Τμήμα Πληροφορικής ΑΠΘ

  10. Boolean Μοντέλο • Απλό, βασίζεται στη Θεωρία Συνόλων • Διατύπωση ερωτημάτων ως λογικές εκφράσεις • ακριβής σημαντική (exact semantics) • απλός φορμαλισμός • Ένας όρος είναι είτε παρόν είτε απώναπό το έγγραφο, επομένως wijЄ{0,1} • Για παράδειγμα • q = (t1 t2) t3 • qdnf = (1,1,1) (0,1,1) (1,0,1) (disjunctive normal form) conjunctive components (qcc) Τμήμα Πληροφορικής ΑΠΘ

  11. Boolean Μοντέλο Πίνακας αληθείας του ερωτήματος (t1 t2) t3 Τμήμα Πληροφορικής ΑΠΘ

  12. Boolean Μοντέλο • Ομοιότητα στο Boolean μοντέλο • Sim(q,dj) = 1,αν vec(qcc) Єvec(qdnf)| ti, gi(vec(dj)) = gi(vec(qcc) • 0,διαφορετικά Τμήμα Πληροφορικής ΑΠΘ

  13. Boolean Μοντέλο q = (t1 t2) t3 Τμήμα Πληροφορικής ΑΠΘ

  14. Μειονεκτήματα Boolean Μοντέλου • Δεν υπάρχει υποστήριξη για μερική ταύτιση (partial matching) • Δεν υπάρχει βαθμολόγηση των αποτελεσμάτων. • Η ερώτηση πρέπει να διατυπωθεί με λογική έκφραση, το οποίο δεν είναι πάντα εύκολο για όλες τις κατηγορίες χρηστών. • Τα ερωτήματα που διατυπώνονται είναι τις περισσότερες φορές πολύ απλοϊκά. • Το Boolean μοντέλο άλλοτε επιστρέφει πάρα πολλά έγγραφα (απλές λογικές εκφράσεις) και άλλοτε πάρα πολύ λίγα (πολύπλοκες λογικές εκφράσεις). Τμήμα Πληροφορικής ΑΠΘ

More Related