830 likes | 1.01k Views
Α. Νανόπουλος & Γ. Μανωλόπουλος Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων Κεφάλαιο 6 : Κατηγοριοποίηση http://delab.csd.auth.gr/books/grBooks/grBooks.html. Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων. 1. Κ ατηγοριοποίηση.
E N D
Α. Νανόπουλος & Γ. ΜανωλόπουλοςΕισαγωγή στην Εξόρυξη & τις Αποθήκες ΔεδομένωνΚεφάλαιο 6: Κατηγοριοποίηση http://delab.csd.auth.gr/books/grBooks/grBooks.html Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων 1
Κατηγοριοποίηση • H ανάθεση αντικειμένων σεπροκαθορισμένες κλάσεις • Ιδιότητες • Μοντέλο κατηγοριοποίησης • Εκπαίδευση από υπάρχοντα δεδομένα(σύνολο εκμάθησης) Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Παράδειγμα Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Κατηγοριοποιητής • Αλγόριθμος κατασκευής μοντέλου • Διαμερισμός σε περιοχές • Εξέταση κατανομών πιθανότητας • Εξέταση πλησιέστερων αντικειμένων Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Παράδειγμα Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Διαμερισμός σε περιοχές Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Εξέταση κατανομών πιθανότητας Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Εξέταση πλησιέστερων αντικειμένων Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Κριτήρια ΑξιολόγησηςΚατηγοριοποιητών • Ακρίβεια πρόβλεψης του μοντέλου • Ευκολία στην κατανόηση του μοντέλου • Κλιμάκωση στο μέγεθος του συνόλου εκμάθησης • Ανοχή στο θόρυβο και στις ελλιπείς τιμές Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Δένδρα απόφασης Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Κατηγοριοποίηση με δένδρο • {Έγγαμος, 22 ετών}. Πιθανός αγοραστής; Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Εξαγωγή κανόνων • Μονοπάτι = συζεύξεις • Κλάση = διάζευξη συζεύξεων Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Κατασκευή δένδρου απόφασης(brute-force) • Κατασκευή κάθε δυνατού πιθανού δένδρου • Επιλογή του ακριβέστερου • NP-complete Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Κατασκευή δένδρου απόφασης(greedy) Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Παράδειγμα 1/3 Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Παράδειγμα 2/3 Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Παράδειγμα 3/3 Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Πόσα παιδιά; 2 ή 3; Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Πολλά παιδιά (=όλα) + εύκολη διάσπαση - περίπλοκο δένδρο - αριθμητικές ιδιότητες? (μόνο με κβάντωση) 2 παιδιά - δύσκολη διάσπαση + απλό/ευνόητο δένδρο + χειρισμός αριθμητικών ιδιοτήτων + καλύτερη ακρίβεια! Πλεονεκτήματα-Μειονεκτήματα Επιλογή: Δυαδικά Δένδρα (2 παιδιά) Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Διάσπαση σε δυαδικά δένδρα Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
a b c a,b a,c b,c a,b,c - b, c a, c a, b c b a - a,b,c Παράδειγμα (2n-2) / 2 = 2n-1-1 Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Διάσπαση αριθμητικών ιδιοτήτων • Ταξινόμηση • Εξέταση n-1 διαχωριστικών θέσεων Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
0:2 2:0 2:1 0:3 0:1 2:2 Πως επιλέγουμε τηδιαχωριστική ιδιότητα Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Μέτρο ανομοιογένειας • Εντροπία για c κλάσεις • Για c = 2 Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Εντροπία για c = 2 Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
0:2 2:0 2:1 0:3 0:1 2:2 Παράδειγμα Υπολογίστε την εντροπία κάθε περίπτωσης (p -> Ναι) Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
0:2 2:0 2:1 0:3 0:1 2:2 Παράδειγμα Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Αξιολόγηση διαχωριστικής ιδιότητας • Πληροφοριακό όφελος για μία ιδιότητα: Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Παράδειγμα πληροφοριακού οφέλους 0 0 0 0.9183 Πριν τη διάσπαση:Ε(Ν) = 0.971 0 1 Υπολογίστε το πληροφοριακό όφελος κάθε περίπτωσης Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Παράδειγμα πληροφοριακού οφέλους 0 0 0 0.9183 Πριν τη διάσπαση:Ε(Ν) = 0.971 0 1 Στο Σχήμα (α) το όφελος είναι 0.971-3/5*0-2/5*0=0.971 Στο Σχήμα (β) το όφελος είναι 0.971-3/5*0.9183-2/5*0=0.42 Στο Σχήμα (γ) το όφελος είναι 0.971-4/5*1-1/5*0=0.171 Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Επιλογή διαχωριστικής ιδιότητας • Εξετάζουμε για κάθε ιδιότητα όλους τους δυνατούς διαχωρισμούς • επιλέγουμε το διαχωρισμό με το μέγιστο όφελος • Επιλέγουμε την ιδιότητα με το μεγαλύτερο πληροφοριακό όφελος • εφαρμόζουμε το διαχωρισμό μεγίστου οφέλους Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Κατασκευή δένδρου απόφασης(greedy) ΑΔΥΝΑΤΟΝ Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Εναλλακτικά κριτήρια τερματισμού • Ένα ποσοστό (π.χ., 80%) ανήκουν στην ίδια κλάση • Αν ο κόμβος περιέχει λιγότερα από, π.χ., 10, αντικείμενα • η κλάση του φύλλου είναι η πλειοψηφούσα • Μπορούμε να έχουμε και τα δύο κριτήρια Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Αποτέλεσμα εναλλακτικών κριτηρίων Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Χαρακτηριστικά Δένδρων Απόφασης • Η κατασκευή του βέλτιστου δένδρου απόφασης απαιτεί αποτρεπτικό χρόνο (NP-complete). Γιαυτό χρησιμοποιούνται άπληστοι ευρετικοί αλγόριθμοι, που δεν χρησιμοποιούν οπισθοδρόμηση. Τα ευρετικά μειώνουν κατά πολύ το χρόνο κατασκευής. Το αποτέλεσμα είναι ότι τα δένδρα απόφασης κλιμακώνονται σε μεγάλους όγκους δεδομένων • Η ακρίβεια πρόβλεψης των δένδρων απόφασης είναι αποδεκτή για τις περισσότερες περιπτώσεις, συγκρίσιμη με την ακρίβεια άλλων κατηγοριοποιητών • Το μοντέλο που προκύπτει είναι εύκολο στην κατανόηση. • Τα δένδρα απόφασης έχουν καλή ανοχή στο θόρυβο, ειδικά όταν εφαρμόζεται ψαλιδισμός Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Μειονεκτήματα • Αγνοούν εξαρτήσεις μεταξύ των ιδιοτήτων. • Διάσπαση ως προς μία ιδιότητα =>αντιστοίχιση με περιοχές, τα όρια των οποίων είναι παράλληλα με τους άξονες Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Άλλοι κατηγοριοποιητές; • Bayesian κατηγοριοποιητές • Κατηγοριοποιητές πλησιέστερων γειτόνων Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Bayesian κατηγοριοποιητήςγια 1 ιδιότητα • Ιδιότητα Χ (συμβολική) • m διακριτές τιμές • Ιδιότητα κλάσης C • n διακριτές τιμές • Θέλουμε να υπολογίσουμε (για κάθε j): Άγνωστη ποσότητα Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Παράδειγμα Οικογενειακή κατάσταση = Άγαμος Αγοραστής ή όχι; P(Ναι | Άγαμος) = ; P(Όχι | Άγαμος) = ; Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Θεώρημα Bayes Άγνωστη ποσότητα Υπολογίζονται Ανεξάρτητη cj Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Στο παράδειγμα… P(Ναι | Άγαμος) -> P(Άγαμος | Ναι) P(Ναι) = 2/7*7/10 = 0.2 P(Όχι | Άγαμος) -> P(Άγαμος | Όχι) P(Όχι) = 1/3 * 3/10 = 0.1 P(Ναι) = 7/10 P(Όχι) = 3/10 Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Τι γίνεται για περισσότερες ιδιότητες; Απλούστευση: ανεξαρτησία των d ιδιοτήτων Αφελείς Bayesian κατηγοριοποιητές Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Παράδειγμα Οικογενειακή κατάσταση = Άγαμος, Ηλικία = 35 Αγοραστής ή όχι; P(Ναι | Άγαμος, 35) = ; P(Όχι | Άγαμος, 35) = ; Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Παράδειγμα P(Ναι|Άγαμος, 35)-> P(Άγαμος,35|Ναι) * P(Ναι)=; P(Όχι|Άγαμος, 35)-> P(Άγαμος,35| Όχι) * P(Όχι)=; Υπόθεση: Ανεξαρτησία οικογενειακής κατάστασης και ηλικίας P(Ναι|Άγαμος, 35)-> P(Άγαμος|Ναι) P(35 |Ναι) * P(Ναι)=; P(Όχι|Άγαμος, 35)-> P(Άγαμος| Όχι) P(35 | Όχι) * P(Όχι)=; P(Άγαμος|Ναι) * P(Ναι) = 0.2 P(Άγαμος|Όχι) * P(Όχι) = 0.1 (από παράδειγμα 1 ιδιότητας) Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Παράδειγμα P(35|Ναι)=; P(35|Όχι)=; Ηλικία συνεχής μεταβλητή (κβάντωση;): υπόθεση συνεχούς κατανομής Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Παράδειγμα P(Ναι|Άγαμος, 35)-> P(Άγαμος|Ναι) P(35 |Ναι) * P(Ναι)= 0.2 * 0.11ε = 0.022 ε P(Όχι|Άγαμος, 35)-> P(Άγαμος| Όχι) P(35 | Όχι) * P(Όχι)= 0.1 * 10-14 = 10-15 ε Άρα,αγοραστής Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Χαρακτηριστικά Αφελών Bayesian • Η ακρίβεια πρόβλεψης των αφελών Bayesian κατηγοριοποιητών επηρεάζεται αρνητικά από το γεγονός ότι σε πραγματικά δεδομένα σχεδόν πάντοτε υπάρχουν εξαρτήσεις μεταξύ των μεταβλητών • Το μοντέλο που προκύπτει είναι εύκολο στην κατανόηση. • Η κατασκευή των ιστογραμμάτων για τους υπολογισμούς των πιθανοτήτων, απαιτεί μόνο μία ανάγνωση του συνόλου δεδομένων. Επομένως, οι Bayesian κατηγοριοποιητές κλιμακώνονται σε μεγάλους όγκους δεδομένων. • Οι Bayesian κατηγοριοποιητές έχουν καλή ανοχή στο θόρυβο, επειδή οι θορυβώδεις τιμές εξομαλύνονται από τις υπόλοιπες κατά τους υπολογισμούς των εν μέρει πιθανοτήτων. • Οι Bayesian κατηγοριοποιητές δεν επηρεάζονται από τις ελλιπείς τιμές, επειδή μπορούν να αγνοηθούν. Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Κατηγοριοποιητήςk πλησιέστερων γειτόνων • Κατηγοριοποιεί ένα αντικείμενο στην κλάση στην οποία ανήκει η πλειοψηφία των k πλησιέστερων σε αυτό αντικειμένων • Απαιτείται ορισμός μέτρου ομοιότητας (ή απόστασης) Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Παράδειγμα • {Άγαμος,Έγγαμος,Διαζευγμένος}->{0, 0.5, 1} • Ηλικία x -> (x-20)/(40-20) • Ευκλείδειος χώρος [0,1] x [0,1] • Ευκλείδεια απόσταση Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων
Παράδειγμα k = 3, προς κατηγοριοποίηση Άγαμος, 35 Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων