1 / 83

Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Α. Νανόπουλος & Γ. Μανωλόπουλος Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων Κεφάλαιο 6 : Κατηγοριοποίηση http://delab.csd.auth.gr/books/grBooks/grBooks.html. Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων. 1. Κ ατηγοριοποίηση.

aure
Download Presentation

Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Α. Νανόπουλος & Γ. ΜανωλόπουλοςΕισαγωγή στην Εξόρυξη & τις Αποθήκες ΔεδομένωνΚεφάλαιο 6: Κατηγοριοποίηση http://delab.csd.auth.gr/books/grBooks/grBooks.html Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων 1

  2. Κατηγοριοποίηση • H ανάθεση αντικειμένων σεπροκαθορισμένες κλάσεις • Ιδιότητες • Μοντέλο κατηγοριοποίησης • Εκπαίδευση από υπάρχοντα δεδομένα(σύνολο εκμάθησης) Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  3. Παράδειγμα Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  4. Κατηγοριοποιητής • Αλγόριθμος κατασκευής μοντέλου • Διαμερισμός σε περιοχές • Εξέταση κατανομών πιθανότητας • Εξέταση πλησιέστερων αντικειμένων Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  5. Παράδειγμα Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  6. Διαμερισμός σε περιοχές Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  7. Εξέταση κατανομών πιθανότητας Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  8. Εξέταση πλησιέστερων αντικειμένων Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  9. Κριτήρια ΑξιολόγησηςΚατηγοριοποιητών • Ακρίβεια πρόβλεψης του μοντέλου • Ευκολία στην κατανόηση του μοντέλου • Κλιμάκωση στο μέγεθος του συνόλου εκμάθησης • Ανοχή στο θόρυβο και στις ελλιπείς τιμές Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  10. Δένδρα απόφασης Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  11. Κατηγοριοποίηση με δένδρο • {Έγγαμος, 22 ετών}. Πιθανός αγοραστής; Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  12. Εξαγωγή κανόνων • Μονοπάτι = συζεύξεις • Κλάση = διάζευξη συζεύξεων Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  13. Κατασκευή δένδρου απόφασης(brute-force) • Κατασκευή κάθε δυνατού πιθανού δένδρου • Επιλογή του ακριβέστερου • NP-complete Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  14. Κατασκευή δένδρου απόφασης(greedy) Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  15. Παράδειγμα 1/3 Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  16. Παράδειγμα 2/3 Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  17. Παράδειγμα 3/3 Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  18. Πόσα παιδιά; 2 ή 3; Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  19. Πολλά παιδιά (=όλα) + εύκολη διάσπαση - περίπλοκο δένδρο - αριθμητικές ιδιότητες? (μόνο με κβάντωση) 2 παιδιά - δύσκολη διάσπαση + απλό/ευνόητο δένδρο + χειρισμός αριθμητικών ιδιοτήτων + καλύτερη ακρίβεια! Πλεονεκτήματα-Μειονεκτήματα Επιλογή: Δυαδικά Δένδρα (2 παιδιά) Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  20. Διάσπαση σε δυαδικά δένδρα Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  21. a b c a,b a,c b,c a,b,c - b, c a, c a, b c b a - a,b,c Παράδειγμα (2n-2) / 2 = 2n-1-1 Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  22. Διάσπαση αριθμητικών ιδιοτήτων • Ταξινόμηση • Εξέταση n-1 διαχωριστικών θέσεων Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  23. 0:2 2:0 2:1 0:3 0:1 2:2 Πως επιλέγουμε τηδιαχωριστική ιδιότητα Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  24. Μέτρο ανομοιογένειας • Εντροπία για c κλάσεις • Για c = 2 Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  25. Εντροπία για c = 2 Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  26. 0:2 2:0 2:1 0:3 0:1 2:2 Παράδειγμα Υπολογίστε την εντροπία κάθε περίπτωσης (p -> Ναι) Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  27. 0:2 2:0 2:1 0:3 0:1 2:2 Παράδειγμα Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  28. Αξιολόγηση διαχωριστικής ιδιότητας • Πληροφοριακό όφελος για μία ιδιότητα: Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  29. Παράδειγμα πληροφοριακού οφέλους 0 0 0 0.9183 Πριν τη διάσπαση:Ε(Ν) = 0.971 0 1 Υπολογίστε το πληροφοριακό όφελος κάθε περίπτωσης Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  30. Παράδειγμα πληροφοριακού οφέλους 0 0 0 0.9183 Πριν τη διάσπαση:Ε(Ν) = 0.971 0 1 Στο Σχήμα (α) το όφελος είναι 0.971-3/5*0-2/5*0=0.971 Στο Σχήμα (β) το όφελος είναι 0.971-3/5*0.9183-2/5*0=0.42 Στο Σχήμα (γ) το όφελος είναι 0.971-4/5*1-1/5*0=0.171 Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  31. Επιλογή διαχωριστικής ιδιότητας • Εξετάζουμε για κάθε ιδιότητα όλους τους δυνατούς διαχωρισμούς • επιλέγουμε το διαχωρισμό με το μέγιστο όφελος • Επιλέγουμε την ιδιότητα με το μεγαλύτερο πληροφοριακό όφελος • εφαρμόζουμε το διαχωρισμό μεγίστου οφέλους Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  32. Κατασκευή δένδρου απόφασης(greedy) ΑΔΥΝΑΤΟΝ Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  33. Εναλλακτικά κριτήρια τερματισμού • Ένα ποσοστό (π.χ., 80%) ανήκουν στην ίδια κλάση • Αν ο κόμβος περιέχει λιγότερα από, π.χ., 10, αντικείμενα • η κλάση του φύλλου είναι η πλειοψηφούσα • Μπορούμε να έχουμε και τα δύο κριτήρια Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  34. Αποτέλεσμα εναλλακτικών κριτηρίων Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  35. Χαρακτηριστικά Δένδρων Απόφασης • Η κατασκευή του βέλτιστου δένδρου απόφασης απαιτεί αποτρεπτικό χρόνο (NP-complete). Γιαυτό χρησιμοποιούνται άπληστοι ευρετικοί αλγόριθμοι, που δεν χρησιμοποιούν οπισθοδρόμηση. Τα ευρετικά μειώνουν κατά πολύ το χρόνο κατασκευής. Το αποτέλεσμα είναι ότι τα δένδρα απόφασης κλιμακώνονται σε μεγάλους όγκους δεδομένων • Η ακρίβεια πρόβλεψης των δένδρων απόφασης είναι αποδεκτή για τις περισσότερες περιπτώσεις, συγκρίσιμη με την ακρίβεια άλλων κατηγοριοποιητών • Το μοντέλο που προκύπτει είναι εύκολο στην κατανόηση. • Τα δένδρα απόφασης έχουν καλή ανοχή στο θόρυβο, ειδικά όταν εφαρμόζεται ψαλιδισμός Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  36. Μειονεκτήματα • Αγνοούν εξαρτήσεις μεταξύ των ιδιοτήτων. • Διάσπαση ως προς μία ιδιότητα =>αντιστοίχιση με περιοχές, τα όρια των οποίων είναι παράλληλα με τους άξονες Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  37. Άλλοι κατηγοριοποιητές; • Bayesian κατηγοριοποιητές • Κατηγοριοποιητές πλησιέστερων γειτόνων Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  38. Bayesian κατηγοριοποιητήςγια 1 ιδιότητα • Ιδιότητα Χ (συμβολική) • m διακριτές τιμές • Ιδιότητα κλάσης C • n διακριτές τιμές • Θέλουμε να υπολογίσουμε (για κάθε j): Άγνωστη ποσότητα Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  39. Παράδειγμα Οικογενειακή κατάσταση = Άγαμος Αγοραστής ή όχι; P(Ναι | Άγαμος) = ; P(Όχι | Άγαμος) = ; Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  40. Θεώρημα Bayes Άγνωστη ποσότητα Υπολογίζονται Ανεξάρτητη cj Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  41. Στο παράδειγμα… P(Ναι | Άγαμος) -> P(Άγαμος | Ναι) P(Ναι) = 2/7*7/10 = 0.2 P(Όχι | Άγαμος) -> P(Άγαμος | Όχι) P(Όχι) = 1/3 * 3/10 = 0.1 P(Ναι) = 7/10 P(Όχι) = 3/10 Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  42. Τι γίνεται για περισσότερες ιδιότητες; Απλούστευση: ανεξαρτησία των d ιδιοτήτων Αφελείς Bayesian κατηγοριοποιητές Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  43. Παράδειγμα Οικογενειακή κατάσταση = Άγαμος, Ηλικία = 35 Αγοραστής ή όχι; P(Ναι | Άγαμος, 35) = ; P(Όχι | Άγαμος, 35) = ; Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  44. Παράδειγμα P(Ναι|Άγαμος, 35)-> P(Άγαμος,35|Ναι) * P(Ναι)=; P(Όχι|Άγαμος, 35)-> P(Άγαμος,35| Όχι) * P(Όχι)=; Υπόθεση: Ανεξαρτησία οικογενειακής κατάστασης και ηλικίας P(Ναι|Άγαμος, 35)-> P(Άγαμος|Ναι) P(35 |Ναι) * P(Ναι)=; P(Όχι|Άγαμος, 35)-> P(Άγαμος| Όχι) P(35 | Όχι) * P(Όχι)=; P(Άγαμος|Ναι) * P(Ναι) = 0.2 P(Άγαμος|Όχι) * P(Όχι) = 0.1 (από παράδειγμα 1 ιδιότητας) Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  45. Παράδειγμα P(35|Ναι)=; P(35|Όχι)=; Ηλικία συνεχής μεταβλητή (κβάντωση;): υπόθεση συνεχούς κατανομής Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  46. Παράδειγμα P(Ναι|Άγαμος, 35)-> P(Άγαμος|Ναι) P(35 |Ναι) * P(Ναι)= 0.2 * 0.11ε = 0.022 ε P(Όχι|Άγαμος, 35)-> P(Άγαμος| Όχι) P(35 | Όχι) * P(Όχι)= 0.1 * 10-14 = 10-15 ε Άρα,αγοραστής Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  47. Χαρακτηριστικά Αφελών Bayesian • Η ακρίβεια πρόβλεψης των αφελών Bayesian κατηγοριοποιητών επηρεάζεται αρνητικά από το γεγονός ότι σε πραγματικά δεδομένα σχεδόν πάντοτε υπάρχουν εξαρτήσεις μεταξύ των μεταβλητών • Το μοντέλο που προκύπτει είναι εύκολο στην κατανόηση. • Η κατασκευή των ιστογραμμάτων για τους υπολογισμούς των πιθανοτήτων, απαιτεί μόνο μία ανάγνωση του συνόλου δεδομένων. Επομένως, οι Bayesian κατηγοριοποιητές κλιμακώνονται σε μεγάλους όγκους δεδομένων. • Οι Bayesian κατηγοριοποιητές έχουν καλή ανοχή στο θόρυβο, επειδή οι θορυβώδεις τιμές εξομαλύνονται από τις υπόλοιπες κατά τους υπολογισμούς των εν μέρει πιθανοτήτων. • Οι Bayesian κατηγοριοποιητές δεν επηρεάζονται από τις ελλιπείς τιμές, επειδή μπορούν να αγνοηθούν. Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  48. Κατηγοριοποιητήςk πλησιέστερων γειτόνων • Κατηγοριοποιεί ένα αντικείμενο στην κλάση στην οποία ανήκει η πλειοψηφία των k πλησιέστερων σε αυτό αντικειμένων • Απαιτείται ορισμός μέτρου ομοιότητας (ή απόστασης) Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  49. Παράδειγμα • {Άγαμος,Έγγαμος,Διαζευγμένος}->{0, 0.5, 1} • Ηλικία x -> (x-20)/(40-20) • Ευκλείδειος χώρος [0,1] x [0,1] • Ευκλείδεια απόσταση Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

  50. Παράδειγμα k = 3, προς κατηγοριοποίηση Άγαμος, 35 Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

More Related