slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων PowerPoint Presentation
Download Presentation
Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Loading in 2 Seconds...

play fullscreen
1 / 83

Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων - PowerPoint PPT Presentation


  • 127 Views
  • Uploaded on

Α. Νανόπουλος & Γ. Μανωλόπουλος Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων Κεφάλαιο 6 : Κατηγοριοποίηση http://delab.csd.auth.gr/books/grBooks/grBooks.html. Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων. 1. Κ ατηγοριοποίηση.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

Α. Νανόπουλος & Γ. ΜανωλόπουλοςΕισαγωγή στην Εξόρυξη & τις Αποθήκες ΔεδομένωνΚεφάλαιο 6: Κατηγοριοποίηση http://delab.csd.auth.gr/books/grBooks/grBooks.html

Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

1

slide2
Κατηγοριοποίηση
  • H ανάθεση αντικειμένων σεπροκαθορισμένες κλάσεις
  • Ιδιότητες
  • Μοντέλο κατηγοριοποίησης
  • Εκπαίδευση από υπάρχοντα δεδομένα(σύνολο εκμάθησης)

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide3
Παράδειγμα

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide4
Κατηγοριοποιητής
  • Αλγόριθμος κατασκευής μοντέλου
    • Διαμερισμός σε περιοχές
    • Εξέταση κατανομών πιθανότητας
    • Εξέταση πλησιέστερων αντικειμένων

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide5
Παράδειγμα

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide6
Διαμερισμός σε περιοχές

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide7
Εξέταση κατανομών πιθανότητας

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide8
Εξέταση πλησιέστερων αντικειμένων

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide9
Κριτήρια ΑξιολόγησηςΚατηγοριοποιητών
  • Ακρίβεια πρόβλεψης του μοντέλου
  • Ευκολία στην κατανόηση του μοντέλου
  • Κλιμάκωση στο μέγεθος του συνόλου εκμάθησης
  • Ανοχή στο θόρυβο και στις ελλιπείς τιμές

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide10
Δένδρα απόφασης

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide11
Κατηγοριοποίηση με δένδρο
  • {Έγγαμος, 22 ετών}. Πιθανός αγοραστής;

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide12
Εξαγωγή κανόνων
  • Μονοπάτι = συζεύξεις
  • Κλάση = διάζευξη συζεύξεων

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

brute force
Κατασκευή δένδρου απόφασης(brute-force)
  • Κατασκευή κάθε δυνατού πιθανού δένδρου
  • Επιλογή του ακριβέστερου
  • NP-complete

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

greedy
Κατασκευή δένδρου απόφασης(greedy)

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide15
Παράδειγμα 1/3

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide16
Παράδειγμα 2/3

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide17
Παράδειγμα 3/3

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide18
Πόσα παιδιά;

2 ή 3;

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide19
Πολλά παιδιά (=όλα)

+ εύκολη διάσπαση

- περίπλοκο δένδρο

- αριθμητικές ιδιότητες? (μόνο με κβάντωση)

2 παιδιά

- δύσκολη διάσπαση

+ απλό/ευνόητο δένδρο

+ χειρισμός αριθμητικών ιδιοτήτων

+ καλύτερη ακρίβεια!

Πλεονεκτήματα-Μειονεκτήματα

Επιλογή: Δυαδικά Δένδρα (2 παιδιά)

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide20
Διάσπαση σε δυαδικά δένδρα

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide21
a

b

c

a,b

a,c

b,c

a,b,c

-

b, c

a, c

a, b

c

b

a

-

a,b,c

Παράδειγμα

(2n-2) / 2 = 2n-1-1

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide22
Διάσπαση αριθμητικών ιδιοτήτων
  • Ταξινόμηση
  • Εξέταση n-1 διαχωριστικών θέσεων

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide23

0:2

2:0

2:1

0:3

0:1

2:2

Πως επιλέγουμε τηδιαχωριστική ιδιότητα

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide24
Μέτρο ανομοιογένειας
  • Εντροπία για c κλάσεις
  • Για c = 2

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide25
Εντροπία για c = 2

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide26

0:2

2:0

2:1

0:3

0:1

2:2

Παράδειγμα

Υπολογίστε την εντροπία κάθε περίπτωσης (p -> Ναι)

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide27

0:2

2:0

2:1

0:3

0:1

2:2

Παράδειγμα

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide28
Αξιολόγηση διαχωριστικής ιδιότητας
  • Πληροφοριακό όφελος για μία ιδιότητα:

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide29
Παράδειγμα πληροφοριακού οφέλους

0

0

0

0.9183

Πριν τη διάσπαση:Ε(Ν) = 0.971

0

1

Υπολογίστε το πληροφοριακό όφελος κάθε περίπτωσης

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide30
Παράδειγμα πληροφοριακού οφέλους

0

0

0

0.9183

Πριν τη διάσπαση:Ε(Ν) = 0.971

0

1

Στο Σχήμα (α) το όφελος είναι 0.971-3/5*0-2/5*0=0.971

Στο Σχήμα (β) το όφελος είναι 0.971-3/5*0.9183-2/5*0=0.42

Στο Σχήμα (γ) το όφελος είναι 0.971-4/5*1-1/5*0=0.171

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide31
Επιλογή διαχωριστικής ιδιότητας
  • Εξετάζουμε για κάθε ιδιότητα όλους τους δυνατούς διαχωρισμούς
    • επιλέγουμε το διαχωρισμό με το μέγιστο όφελος
  • Επιλέγουμε την ιδιότητα με το μεγαλύτερο πληροφοριακό όφελος
    • εφαρμόζουμε το διαχωρισμό μεγίστου οφέλους

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

greedy1
Κατασκευή δένδρου απόφασης(greedy)

ΑΔΥΝΑΤΟΝ

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide33
Εναλλακτικά κριτήρια τερματισμού
  • Ένα ποσοστό (π.χ., 80%) ανήκουν στην ίδια κλάση
  • Αν ο κόμβος περιέχει λιγότερα από, π.χ., 10, αντικείμενα
    • η κλάση του φύλλου είναι η πλειοψηφούσα
  • Μπορούμε να έχουμε και τα δύο κριτήρια

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide34
Αποτέλεσμα εναλλακτικών κριτηρίων

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide35
Χαρακτηριστικά Δένδρων Απόφασης
  • Η κατασκευή του βέλτιστου δένδρου απόφασης απαιτεί αποτρεπτικό χρόνο (NP-complete). Γιαυτό χρησιμοποιούνται άπληστοι ευρετικοί αλγόριθμοι, που δεν χρησιμοποιούν οπισθοδρόμηση. Τα ευρετικά μειώνουν κατά πολύ το χρόνο κατασκευής. Το αποτέλεσμα είναι ότι τα δένδρα απόφασης κλιμακώνονται σε μεγάλους όγκους δεδομένων
  • Η ακρίβεια πρόβλεψης των δένδρων απόφασης είναι αποδεκτή για τις περισσότερες περιπτώσεις, συγκρίσιμη με την ακρίβεια άλλων κατηγοριοποιητών
  • Το μοντέλο που προκύπτει είναι εύκολο στην κατανόηση.
  • Τα δένδρα απόφασης έχουν καλή ανοχή στο θόρυβο, ειδικά όταν εφαρμόζεται ψαλιδισμός

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide36
Μειονεκτήματα
  • Αγνοούν εξαρτήσεις μεταξύ των ιδιοτήτων.
  • Διάσπαση ως προς μία ιδιότητα =>αντιστοίχιση με περιοχές, τα όρια των οποίων είναι παράλληλα με τους άξονες

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide37
Άλλοι κατηγοριοποιητές;
  • Bayesian κατηγοριοποιητές
  • Κατηγοριοποιητές πλησιέστερων γειτόνων

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

bayesian 1
Bayesian κατηγοριοποιητήςγια 1 ιδιότητα
  • Ιδιότητα Χ (συμβολική)
    • m διακριτές τιμές
  • Ιδιότητα κλάσης C
    • n διακριτές τιμές
  • Θέλουμε να υπολογίσουμε (για κάθε j):

Άγνωστη ποσότητα

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide39
Παράδειγμα

Οικογενειακή κατάσταση = Άγαμος

Αγοραστής ή όχι;

P(Ναι | Άγαμος) = ;

P(Όχι | Άγαμος) = ;

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

bayes
Θεώρημα Bayes

Άγνωστη ποσότητα

Υπολογίζονται

Ανεξάρτητη cj

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide41
Στο παράδειγμα…

P(Ναι | Άγαμος) -> P(Άγαμος | Ναι) P(Ναι) = 2/7*7/10 = 0.2

P(Όχι | Άγαμος) -> P(Άγαμος | Όχι) P(Όχι) = 1/3 * 3/10 = 0.1

P(Ναι) = 7/10

P(Όχι) = 3/10

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide42
Τι γίνεται για περισσότερες ιδιότητες;

Απλούστευση: ανεξαρτησία των d ιδιοτήτων

Αφελείς Bayesian κατηγοριοποιητές

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide43
Παράδειγμα

Οικογενειακή κατάσταση = Άγαμος, Ηλικία = 35

Αγοραστής ή όχι;

P(Ναι | Άγαμος, 35) = ;

P(Όχι | Άγαμος, 35) = ;

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide44
Παράδειγμα

P(Ναι|Άγαμος, 35)-> P(Άγαμος,35|Ναι) * P(Ναι)=;

P(Όχι|Άγαμος, 35)-> P(Άγαμος,35| Όχι) * P(Όχι)=;

Υπόθεση: Ανεξαρτησία οικογενειακής κατάστασης και ηλικίας

P(Ναι|Άγαμος, 35)-> P(Άγαμος|Ναι) P(35 |Ναι) * P(Ναι)=;

P(Όχι|Άγαμος, 35)-> P(Άγαμος| Όχι) P(35 | Όχι) * P(Όχι)=;

P(Άγαμος|Ναι) * P(Ναι) = 0.2

P(Άγαμος|Όχι) * P(Όχι) = 0.1 (από παράδειγμα 1 ιδιότητας)

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide45
Παράδειγμα

P(35|Ναι)=; P(35|Όχι)=;

Ηλικία συνεχής μεταβλητή (κβάντωση;): υπόθεση συνεχούς κατανομής

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide46
Παράδειγμα

P(Ναι|Άγαμος, 35)->

P(Άγαμος|Ναι) P(35 |Ναι) * P(Ναι)= 0.2 * 0.11ε = 0.022 ε

P(Όχι|Άγαμος, 35)->

P(Άγαμος| Όχι) P(35 | Όχι) * P(Όχι)= 0.1 * 10-14 = 10-15 ε

Άρα,αγοραστής

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

bayesian
Χαρακτηριστικά Αφελών Bayesian
  • Η ακρίβεια πρόβλεψης των αφελών Bayesian κατηγοριοποιητών επηρεάζεται αρνητικά από το γεγονός ότι σε πραγματικά δεδομένα σχεδόν πάντοτε υπάρχουν εξαρτήσεις μεταξύ των μεταβλητών
  • Το μοντέλο που προκύπτει είναι εύκολο στην κατανόηση.
  • Η κατασκευή των ιστογραμμάτων για τους υπολογισμούς των πιθανοτήτων, απαιτεί μόνο μία ανάγνωση του συνόλου δεδομένων. Επομένως, οι Bayesian κατηγοριοποιητές κλιμακώνονται σε μεγάλους όγκους δεδομένων.
  • Οι Bayesian κατηγοριοποιητές έχουν καλή ανοχή στο θόρυβο, επειδή οι θορυβώδεις τιμές εξομαλύνονται από τις υπόλοιπες κατά τους υπολογισμούς των εν μέρει πιθανοτήτων.
  • Οι Bayesian κατηγοριοποιητές δεν επηρεάζονται από τις ελλιπείς τιμές, επειδή μπορούν να αγνοηθούν.

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide48
Κατηγοριοποιητήςk πλησιέστερων γειτόνων
  • Κατηγοριοποιεί ένα αντικείμενο στην κλάση στην οποία ανήκει η πλειοψηφία των k πλησιέστερων σε αυτό αντικειμένων
  • Απαιτείται ορισμός μέτρου ομοιότητας (ή απόστασης)

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide49
Παράδειγμα
  • {Άγαμος,Έγγαμος,Διαζευγμένος}->{0, 0.5, 1}
  • Ηλικία x -> (x-20)/(40-20)
  • Ευκλείδειος χώρος [0,1] x [0,1]
  • Ευκλείδεια απόσταση

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide50
Παράδειγμα

k = 3, προς κατηγοριοποίηση Άγαμος, 35

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide51
Επιλογή k
  • Η τιμή του k μπορεί να επηρεάζει τοαποτέλεσμα
  • Μικρές τιμές του k εξετάζουν μόνο την άμεση γειτονιά, επομένως είναι επιρρεπείς στο θόρυβο.
  • Μεγάλες τιμές του k αγνοούν την αρχή της τοπικότητας, και είναι επιρρεπείς στην πλειοψηφούσα κλάση σε όλο το σύνολο δεδομένων
  • Συχνά χρησιμοποιούμενη τιμή είναι k = sqrt(n), όπου n ο αριθμός των αντικειμένων στο σύνολο εκμάθησης
  • Σε εμπορικά συστήματα η default τιμή είναι k = 10

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide52
Χαρακτηριστικά κατηγοριοποιητών kπλησιέστερων γειτόνων
  • Η ακρίβεια πρόβλεψηςτους είναι ευαίσθητη στην τιμή του k.
  • Αξιοποιούν την τοπικότητα και εξετάζουν μη γραμμικές περιοχές (αντίθετα από τα δένδρα απόφασης), κάτι που συχνά αποτελεί πλεονέκτημα.
  • Το αποτέλεσμα της κατηγοριοποίησης δεν γίνεται εύκολα κατανοητό. Η αρχή της τοπικότητας είναι η μόνη αιτιολόγηση του αποτελέσματος, αλλά είναι πολύ γενική.
  • Ο χρόνος κατηγοριοποίησης είναι γραμμικός ως προς τα σημεία, κάτι που περιορίζει την κλιμάκωσητους (γιατί;). Μπορούν, όμως, να χρησιμοποιηθούν δομές καταλόγου (π.χ., kd-tree) για την επιτάχυνση της εύρεσης πλησιέστερων γειτόνων.
  • Δεν έχουν καλή ανοχή στο θόρυβο, ιδιαίτερα για μικρές τιμές του k.

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide53
Αποτίμηση ακρίβειας
  • Γνωρίζουμε 3 κατηγοριοποιητές
  • Πως συγκρίνουμε την επίδοσή τους ως προς την ακρίβεια;
  • Πως μπορούμε να είμαστε σίγουροι για την ακρίβεια που θα έχει το μοντέλο μας;
    • Μέτρηση με αντικειμενικό τρόπο, που να αποκλείει προκατάληψη: 4 μέθοδοι
    • Υπολογισμός στατιστικής σημαντικότητας

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

hold out
Μέθοδοι μέτρησης ακρίβειας:Hold-out
  • Χωρίζουμε το σύνολο δεδομένων σε δύο τμήματα:
    • το σύνολο εκμάθησης (π.χ., τα 2/3 πρώτα αντικείμενα)
    • και το σύνολο ελέγχου (π.χ. τα επόμενα 1/3)
  • Δημιουργούμε μοντέλο σύμφωνα με το σύνολο εκμάθησης
  • Κατατάσσεται κάθε αντικείμενο του συνόλου ελέγχου
  • X είναι ο αριθμός που κατατάσσονται σωστά και Ν ο συνολικός αριθμός των αντικειμένων στο σύνολο ελέγχου
  • Εξάρτηση από τη διάταξη των αντικειμένων

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

r andom subsampling
Μέθοδοι μέτρησης ακρίβειας:Random subsampling
  • Αποφυγή εξάρτησης από διάταξη
  • Εφαρμόζουμε τυχαία δειγματοληψία χωρίςεπανατοποθέτηση
  • Επιλέγουμε N αντικείμενα, τα οποία θέτουμε στο σύνολο ελέγχου
  • Τα εναπομείναντα αντικείμενα τα θέτουμε στο σύνολο εκμάθησης.
  • Επανάληψη της διαδικασίας αυτής k φορές
  • Αν Xi είναι ο αριθμός των σωστά καταταγμένων αντικειμένων στην i-οστή επανάληψη

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

cross validation
Μέθοδοι μέτρησης ακρίβειας:Cross validation
  • Για να μην λαμβάνουμε τυχαία τα δείγματα
  • M ο αριθμός των αντικειμένων στο σύνολο δεδομένων
  • Θέλουμε k επαναλήψεις
  • Χωρίζουμε το σύνολο σε k τμήματα με M/k (διαδοχικά) αντικείμενα το κάθε ένα
  • Στην i-οστή επανάληψη, το i-οστό τμήμα λειτουργεί ως σύνολο ελέγχου, ενώ τα υπόλοιπα k-1 τμήματα απαρτίζουν το σύνολο εκμάθησης.
  • Μία συχνά χρησιμοποιούμενη τιμή του k είναι το 10
  • Η μέθοδος 10-fold cross-validation θεωρείται μία από τις πιο αξιόπιστες για την αποτίμηση της ακρίβειας κατηγοριοποιητών.
  • Ανk=Μ, τότε η μέθοδος ονομάζεται leave-one-out
    • χρησιμοποιείται μόνο για μικρά σύνολα δεδομένων.

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

bootstrap
Μέθοδοι μέτρησης ακρίβειας: bootstrap
  • Δειγματοληψία μεεπανατοποθέτηση
  • Μ αντικείμενα -> 0.632Μ στο δείγμα
  • Δειγματοληπτούμε Μ φορές
  • Σε κάθε προσπάθεια: P(επιλογή x) = 1/Μ
  • Σε M προσπάθειες

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide58

Μέθοδοι μέτρησης ακρίβειας: bootstrap

  • Τα 0.632Μ αντικείμενα αποτελούν το σύνολο εκμάθησης
  • Επανάληψη kφορές της διαδικασίας
  • Αν αi είναι η ακρίβεια στην i-οστή επανάληψη και α η ακρίβεια όταν σύνολο ελέγχου = σύνολο εκμάθησης = σύνολο

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide59
Διαστήματα εμπιστοσύνης για την ακρίβεια πρόβλεψης
  • Χ από N αντικείμενα κατατάχθηκαν σωστά
  • Χ τυχαία μεταβλητή με διωνυμική κατανομή
  • p η πραγματική ακρίβεια πρόβλεψης
  • Α = Χ/Ν τυχαία μεταβλητή (διωνυμική)

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide60
Διαστήματα εμπιστοσύνης για την ακρίβεια πρόβλεψης
  • Για Ν →  Α = Χ/Ν ακολουθεί κανονική κατανομή (νόμος μεγάλων αριθμών)
  • Σε επίπεδο εμπιστοσύνης α:

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide61
Παράδειγμα

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide62
Βελτίωση της ακρίβειας
  • Γνωρίζουμε 3 βασικούς κατηγοριοποιητές
  • Ξέρουμε πώς να εκτιμούμε σωστά την ακρίβεια
  • Μπορούμε να βελτιώσουμε την ακρίβεια χρησιμοποιώντας διαφορετικά τους γνωστούς μας κατηγοριοποιητές;
    • Ψαλιδισμός
    • Σύνολα κατηγοριοποιητών

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide63
Υπερβολική προσαρμογή
  • 2000 δισδιάστατα σημεία σε δύο κλάσεις (1000 σημεία ανά κλάση), που ακολουθούν κανονική κατανομή.
  • Προσθέτουμε θόρυβο: ανταλλάζουμε την κλάση 150 σημείων
  • Διαχωρίζουμε 1000 σημεία στο σύνολο ελέγχου
  • Προσθέτουμε επιπλέον θόρυβο στο σύνολο εκμάθησης: ανταλλάζουμε την κλάση άλλων 200 τυχαίων σημείων

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide64

Υπερβολική προσαρμογή

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide65

Υπερβολική προσαρμογή

  • Μικρός αριθμό κόμβων: ανεπαρκής προσαρμογή (undefiting)
  • Στο δένδρο απόφασης προστίθενται ολοένα και περισσότεροι κόμβοι με σκοπό να καλυφθούν (δηλαδή, να γίνει εκμάθηση) των θορυβωδών σημείων.
  • Η υπερβολική προσαρμογή, που δηλώνεται από τη μείωση του λάθους εκμάθησης, μειώνει τη δυνατότητα του δένδρου απόφασης να γενικεύει σε άγνωστα αντικείμενα, κάτι που δηλώνεται από την αύξηση του λάθους ελέγχου.

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

pruning
Ψαλιδισμός (pruning)
  • Προ-ψαλιδισμός: εναλλακτικά κριτήρια τερματισμού κατά τη δημιουργία
    • Δύσκολη επιλογή κατωφλίου
  • Μετά-ψαλιδισμός:
    • Πρώτα δημιουργούμε το δένδρο
    • Μετά, διαγράφουμε υποδένδρα ώστε να μειώσουμε την υπερβολική προσαρμογή

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide67
Αλγόριθμος REP

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide68
Αλγόριθμος REP

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide69
Παράδειγμα

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide70
Σύνολα κατηγοριοποιητών
  • nδυαδικοί (2 κλάσεις) ανεξάρτητοικατηγοριοποιητές
  • Κάθε ένας έχει πιθανότητα λάθους e
  • Αποφασίζουμε την κλάση που λέει η πλειοψηφία των κατηγοριοποιητών
  • Για να γίνει λάθος, περισσότεροι από n/2 να κάνουν λάθος
  • Εκτιμώμενο λάθος για το σύνολο:

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide71
Σύνολα κατηγοριοποιητών

n=10, e=0.2, E =0.0064

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

bagging bootstrap aggragating
Bagging (Bootstrap AGGragatING)
  • kδείγματα με επανατοποθέτηση (διαδικασία bootstrap)
    • σύνολα δεδομένων για k κατηγοριοποιητές (ίδιος αλγόριθμο κατασκευής)
    • αναμενόμενος αριθμός διακριτών αντικειμένων στο κάθε δείγμα: 63.2% του αρχικού
  • Ένα νέο αντικείμενο κατατάσσεται με καθέναν από k κατηγοριοποιητές.
    • Το αναθέτουμε κλάση που πλειοψηφεί
  • Η μέθοδος bagging βελτιώνει την ακρίβεια, όταν υπάρχει διακύμανση στην ακρίβεια των k κατηγοριοποιητών

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide73
Κλιμακούμενοι αλγόριθμοι
  • Δένδρα απόφασης:
    • απαίτηση τα δεδομένα στην κύρια μνήμη
    • αλλεπάλληλες ταξινομήσεις αριθμητικών δεδομένων σε κάθε κόμβο
  • Δεν κλιμακώνονται εύκολα
  • Κλιμακούμενες παραλλαγές: SLIQ, SPRINT
    • ΔΕΝ μειώνουν την ακρίβεια

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

sliq supervised learning in quest
SLIQ(Supervised Learning In Quest)
  • Αρχές του SLIQ:
    • Προ-ταξινόμηση
    • Ανάπτυξη κατά πλάτος

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide75
Προ-ταξινόμηση: ΛίστεςΙδιοτήτων/Κλάσεων

Αρχική ρίζα

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

gini index
Διάσπαση με giniindex

2

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide77
Κατά-πλάτος ανάπτυξη

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide78
Κατά-πλάτος ανάπτυξη

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide79
Κατά-πλάτος ανάπτυξη

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

sprint
SPRINT
  • Ο SLIQ απαιτεί η λίστα κλάσης να παραμένει στη μνήμη
  • Πρόβλημα αν αυτό δεν είναι εφικτό
  • Ο SPRINT καταργεί τη λίστα κλάσης
    • προσθέτει την κλάση στις λίστες ιδιοτήτων
  • Κάθε κόμβος έχει τη δική του λίστα ιδιοτήτων
    • Δυνατότητα για παραλληλισμό

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

sprint1
Λίστες ιδιοτήτων SPRINT

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

slide82
Ενημέρωση λιστών
  • Για την ιδιότητα διάσπασης:
    • απλώς διαχωρίζεται η αντίστοιχη λίστα σε 2 άλλες (δυαδική διάσπαση)
  • Για τις υπόλοιπες ιδιότητες:
    • ο διαχωρισμός γίνεται βάσει RID

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

sprint vs sliq
SPRINT

Δεν έχει περιορισμό μνήμης

Απαιτεί χρόνο ενημέρωσης και επαναποθήκευσης λιστών

Παραλληλίζεται εύκολα

SLIQ

Μειώνει τους περιορισμούς μνήμης αλλά δεν τους εξαλείφει (λίστα κλάσης)

Ενημερώνει μόνο τη λίστα κλάσεων (στη μνήμη)

Δεν παραλληλίζεται εύκολα (λόγω μίας κεντρικής λίστας κλάσης)

SPRINT vs. SLIQ

Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων