1 / 64

Bayes Classifiers

Bayes Classifiers. Θεώρημα Bayes. T ο θεώρημα Bayes εκφράζεται ως: όπου ω j η κλάση j και x το διάνυσμα χαρακτηριστικών Ένας τυπικός κανόνας απόφασης είναι να επιλέγουμε την κλάση με τη μέγιστη P[ ω j |x] P[ ω j ] εκ των προτέρων πιθανότητα P[ ω j | x] εκ των υστέρων πιθανότητα

felton
Download Presentation

Bayes Classifiers

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bayes Classifiers

  2. Θεώρημα Bayes • Tο θεώρημα Bayesεκφράζεται ως: • όπου ωj η κλάση j και x το διάνυσμα χαρακτηριστικών • Ένας τυπικός κανόνας απόφασης είναι να επιλέγουμε την κλάση με τη μέγιστη P[ωj|x] • P[ωj] εκ των προτέρων πιθανότητα • P[ωj|x] εκ των υστέρων πιθανότητα • P[x|ωj] πιθανοφάνεια • P[x] σταθερά κανονικοποίησης

  3. Λόγος Πιθανοφάνειας • Δεδομένου του θεωρήματος Bayes: • H P(x) μπορεί να απλοποιηθεί και μετά από ανακατάταξη της σχέσης προκύπτει ο λόγος πιθανοφάνειας Λ(x) και ο κανόνας απόφασης του Bayes: 

  4. Κανόνας Απόφασης Bayes - Άσκηση • Δεδομένου προβλήματος ταξινόμησης με τις πιο κάτω υπό συνθήκη πιθανότητες και υποθέτοντας ίσες εκ των προτέρων πιθανότητες, εξάγετε κανόνα απόφασης.

  5. Κανόνας Απόφασης Bayes - Λύση • Αντικαθιστώντας στον κανόνα: • Απλοποιώντας • Λογαριθμόντας  

  6. Κανόνας Απόφασης Bayes- Λύση

  7. Συμπέρασμα • Πιθανότητα λάθους

  8. Gaussian συνάρτηση πυκνότητας πιθανότητας • Σύμφωνα με το θεώρημα κεντρικού ορίου, η συνάρτηση πυκνότητας πιθανότητας του αθροίσματος ενός πλήθους στατιστικώς ανεξάρτητων τυχαίων μεταβλητών, τείνει στη Gaussian συνάρτηση πυκνότητας πιθανότητας, όταν το πλήθος των όρων τείνει στο άπειρο.

  9. Gaussian συνάρτηση πυκνότητας πιθανότητας • Gaussian pdf πολλών μεταβλητών • όπου • Και ο Πίνακας συνδιασποράς

  10. Ταξινομητές Ελάχιστης Απόστασης • Ο Βέλτιστος Bayesian ταξινομητής, απλοποιείται σημαντικά όταν: • Οι κλάσεις είναι ισοπίθανες • Τα δεδομένα σε όλες τις κλάσεις ακολουθούν κανονική κατανομή • Το μητρώο συνδιασποράς είναι το ίδιο για όλες τις κλάσεις • Το μητρώο συνδιασποράς είναι διαγώνιο με όλα τα στοιχεία ίσα S=σ2Ι

  11. Ταξινομητές Ελάχιστης Απόστασης • Αν ισχύουν οι περιορισμοί ο Βayes classifier γίνεται: Euclidean Distance: • Αν δεν ισχύει ο τελευταίος περιορισμός γίνεται: Mahalanobis Distance:

  12. Επιβλεπόμενη vs Μη-Επιβλεπόμενη Μάθηση • Μέχρι τώρα θεωρήσαμε μεθόδους αναγνώρισης με classification όπου το πρότυπο χαρακτηρίζεται από τα μεγέθη {x,ω} • Αυτά τα προβλήματα αναγνώρισης ονομάζονται Επιβλεπόμενα (supervised) αφού διατίθενται και το χαρακτηριστικό διάνυσμα και η σωστή απάντηση. • Υπάρχουν όμως περιπτώσεις όπου δίνεται το χαρακτηριστικό διάνυσμα χωρίς την κλάση. • Αυτές οι μέθοδοι καλούνται Μη-Επιβλεπόμενες (unsupervised) λόγω του ότι δεν χρησιμοποιούν τη σωστή απάντηση.

  13. Επιβλεπόμενη vs Μη-Επιβλεπόμενη Μάθηση Αν και η μέθοδοι μη επιβλεπόμενης μάθηση φαίνονται περιορισμένων δυνατοτήτων υπάρχουν πολλές περιπτώσεις που επιβάλλεται η χρήση τους: • Ο χαρακτηρισμός πολλών δεδομένων μπορεί να αποβεί δαπανηρός (π.χ. αναγνώριση ομιλίας) • Το είδος της κλάσης μπορεί να μην είναι γνωστό εξ’αρχής.

  14. Κατηγοριοποιήση των μη-επιβλεπόμενων μεθόδων εκμάθησης • Παραμετρικές (μείγματα κατανομών): Αυτές οι μέθοδοι μοντελοποιούν την υπό συνθήκη πυκνότητα πιθανότητας με ένα μίγμα παραμετρικών πυκνοτήτων με σκοπό να βρουν τις παραμέτρους του μοντέλου. • Μη-παραμετρικές (clustering): Δεν γίνεται υπόθεση για την πυκνότητα πιθανότητα αλλά επιχειρείται διαχωρισμός των δεδομένων σε clusters.

  15. Μοντέλα Μίξης • Θεωρήστε το πρόβλημα μοντελοποίησης συνάρτησης πυκνότητας πιθανότητας δεδομένου ενός συνόλου δεδομένων X={x(1, x(2, …, x(N} • Αν η μορφή πυκνότητας ήταν γνωστή το πρόβλημα θα λύνονταν με το κριτήριο της Μέγιστης Πιθανότητας • Αν η μορφή πυκνότητας ήταν άγνωστη, θα μπορούσε να λυθεί με τα παράθυρα Parzen

  16. Μοντέλα Μίξης • Εδώ θα θεωρήσουμε μια εναλλακτική μέθοδο εκτίμησης της πυκνότητας, μέσω μείγματος παραμετρικών πυκνοτήτων

  17. Ο αλγόριθμος ΕΜ (ExpectationMaximization -μεγιστοποίησηαναμονής) • Ο ΕΜ είναι γενική μέθοδος για την εκτίμηση της μέγιστης πιθανότητας όταν λείπουν δεδομένα. • Χρησιμοποιείται όταν όντως έχουν καταστραφεί ή λείπουν δεδομένα ή ότι η υπόθεση ότι λείπουν δεδομένα απλοποιεί τη συνάρτηση πιθανότητας • Υποθέστε σύνολο δεδομένων που περιέχει δύο είδη χαρακτηριστικών: τα Χ που είναι γνωστά και τα Ζ που είναι άγνωστα

  18. Ο αλγόριθμος ΕΜ (ExpectationMaximization-μεγιστοποίησηαναμονής) • Ορίζουμε μια συνάρτηση κατανομής πιθανότητας όλων των δεδομένων p(X,Z|θ) όπου θ={μ,Σ} • Η συνάρτηση είναι τυχαίας μεταβλητής ως προς Ζ δηλ. p(X,Z|θ)=hX,θ(Z) • Ο ΕΜ έχει δύο λειτουργίες που επαναλαμβάνει: • Μια λειτουργία αναμονής (Expectation) • Μια λειτουργία μεγιστοποίησης (Maximization)

  19. Ο αλγόριθμος ΕΜ (ExpectationMaximization -μεγιστοποίησηαναμονής) ANAMONH • Υπολόγισε την αναμενόμενη τιμή της πιθανότητας log[p(X,Z|θ)] ως προς τα άγνωστα δεδομένα Ζ, δεδομένων των Χ και την τρέχουσα τιμή θ(i-1 ΜΕΓΙΣΤΟΠΟΙΗΣΗ • Υπολόγισε το όρισμα θ • Αποδεικνύεται ότι ο ΕΜ συγκλίνει σε τοπικό μέγιστο της συνάρτησης πιθανότητας

  20. Ο αλγόριθμος ΕΜ (ExpectationMaximization -μεγιστοποίησηαναμονής) • Κατά την Ε λειτουργία τα χαρακτηριστικά Ζ διώχνονται με ολοκλήρωση • Κατά την Μ λειτουργία υπολογίζονται οι τιμές των παραμέτρων που μεγιστοποιούν την αναμενόμενη τιμή. • Αφού το Ζ είναι άγνωστο μεγιστοποιούμε τη λογαριθμική συνάρτηση πιθανότητας για όλες τις πιθανές τιμές του Ζ

  21. Ο αλγόριθμος ΕΜ και μίγμα μοντέλων • Έχοντας ορίσει τον αλγόριθμο ΕΜ μπορούμε να λύσουμε το πρόβλημα μίγματος παραμετρικών κατανομών • Για λόγους απλοποίησης θα θεωρήσουμε πρόβλημα μιας μεταβλητής όπου όλα τα μέρη έχουν γνωστή τυπική απόκλιση σ.

  22. Ο αλγόριθμος ΕΜ και μίγμα μοντέλων • Δεδομένου του συνόλου δεδομένων X={x(1, x(2, …, x(N}, ζητείται να υπολογίσουμε τις παραμέτρους του μοντέλου θ={µ1, µ2, …µC} • Θεωρούμε ότι κάθε μεταβλητή x(n δημιουργήθηκε με τον εξής τρόπο: • Αρχικά μια κατανομή Gaussεπιλέγεται βάσει των συντελεστών του μίγματος P(ωc) • Τότε, το x(n δημιουργείται βάσει της πιθανότητας p(x|µc) του συγκεκριμένου συστατικού • Σε ένα τέτοιο πρόβλημα, οι κρυφές μεταβλητές Z={z1(n,z2(n,…zC(n} χρησιμοποιούνται για να δείξουν ποια από τις Cκατανομές Gauss παρήγαγε το x(n

  23. Ο αλγόριθμος ΕΜ και μίγμα μοντέλων • Η πιθανότητα p(x,z|θ) για ένα συγκεκριμένο δείγμα είναι: • Μόνο ένα από τα zc(nμπορεί να είναι 1.

  24. Ο αλγόριθμος ΕΜ και μίγμα μοντέλων • Η λογαριθμική συνάρτηση πιθανότητας για όλο το σύνολο θα είναι • Για να υπολογίσουμε το Q(θ|θ(i-1) πρέπει να πάρουμε τη μέση τιμής ως προς Ζ • E[zc(n] είναι η πιθανότητα το παράδειγμα x(n να δημιουργήθηκε από τη c-στη κατανομή Gauss δεδομένων των παραμέτρων θ(i-1

  25. Ο αλγόριθμος ΕΜ και μίγμα μοντέλων • Αυτές οι δύο εκφράσεις δίνουν την Q συνάρτηση:

  26. Ο αλγόριθμος ΕΜ και μίγμα μοντέλων • Το δεύτερο βήμα (Maximization) είναι ο υπολογισμός των τιμών {µ1,µ2,…,µC} όπου μεγιστοποιεί τη συνάρτηση Q • Και υπολογίζοντας τα μηδενικά της μερικής παραγώγισης:

  27. Ιστόγραμμα • Η πιο απλή μορφή μη παραμετρικής εκτίμησης πυκνότητας είναι το ιστόγραμμα • Χωρίζει το δειγματοχώρο σε μικρές περιοχές και προσεγγίζει την πυκνότητα από το πλήθος των δειγμάτων που εμπίπτουν στην κάθε περιοχή.

  28. Ιστόγραμμα - Μειονεκτήματα • Το τελικό σχήμα της συνάρτησης πυκνότητας πιθανότητας εξαρτάται από το σημείο εκκίνησης των περιοχών • Η φαινομενική συνέχεια στα δεδομένα εξαρτάται από την επιλογή των περιοχών • Σε προβλήματα πολλών διαστάσεων θα απαιτούνται πολλά δείγματα αλλιώς ο σχηματισμός θα είναι ελλιπής.

  29. Γενική διατύπωση εκτίμησης • Η πιθανότητα ένα διάνυσμα x, με κατανομήp(x), να ανήκει σε μια περιοχή  είναι: • Αν υποθέσουμε ότι Ν είναι τα δείγματα της κατανομής, η πιθανότητα να ανήκουν k στην περιοχή , είναι:

  30. Γενική διατύπωση εκτίμησης • Από τις ιδιότητες των διωνυμικών κατανομών έχουμε: • Που σημαίνει ότι όταν Ν→∞ η κατανομή γίνεται πιο αιχμηρή, άρα μπορούμε να θεωρήσουμε ότι μία καλή εκτίμηση της Pείναι το μέσο των σημείων που εμπίπτουν στην :

  31. Γενική διατύπωση εκτίμησης • Αν υποθέσουμε ότι η περιοχή  είναι τόσο μικρή που η p(x) δεν αλλάζει: • Και συνδυάζοντας με το προηγούμενο αποτέλεσμα: • Ο υπολογισμός είναι πιο ακριβής όσο αυξάνει το πλήθος των δειγμάτων Ν και μικραίνει ο όγκος V

  32. Γενική διατύπωση εκτίμησης • Στην προηγούμενη σχέση ο συνολικός αριθμός δειγμάτων Ν είναι σταθερός • Για να βελτιωθεί η ακρίβεια στην εκτίμηση του p(x) μπορούμε να ελαχιστοποιήσουμε τον όγκο (σχεδόν 0), αλλά τότε η περιοχή  θα γίνει τόσο μικρή που δεν θα περιέχει πρακτικά δείγματα • Άρα θα πρέπει να γίνει ένας συμβιβασμός ώστε το V να είναι αρκετά μεγάλο για να περιέχει αρκετά δείγματα και αρκετά μικρό ώστε να στηρίζεται η υπόθεση ότι το p(x) παραμένει σταθερό εντός της 

  33. Γενική διατύπωση εκτίμησης • Στην πράξη δύο προσεγγίσεις ακολουθούνται: • Μπορούμε να επιλέξουμε μια σταθερή τιμή για τον όγκο V και να υπολογίσουμε τα περιεχόμενα δείγματα από τα δεδομένα (Εκτίμηση Πυκνότητας Kernel) • Μπορούμε να ορίσουμε σταθερό αριθμό δειγμάτων k και να υπολογίσουμε τον αντίστοιχο όγκο V από τα δεδομένα (k-Nearest Neighbours) • Αποδεικνύεται ότι και οι δύο πιο πάνω προσεγγίσεις συγκλίνουν στην πραγματική τιμή της συνάρτησης πυκνότητας πιθανότητας όταν N→∞, δεδομένου ότι ο όγκος V συρρικνώνεται και το k μεγαλώνει με το N,

  34. Παράθυρα Parzen • Αν υποθέσουμε ότι η περιοχή  που περικλείει k δείγματα είναι ένας κύβος πλευράς h κεντραρισμένος στο σημείο εκτίμησης x, ο όγκος είναι V=hD. • Για να βρούμε τον αριθμό των δειγμάτων στην περιοχή ορίζουμε την Kernel συνάρτηση:

  35. Παράθυρα Parzen • Αυτή η συνάρτηση, μοναδιαίου υπερκύβου κεντραρισμένο στο x, ονομάζεται παράθυρο Parzen • Η ποσότητα K((x-x(n)/h) ισούται με τη μονάδα αν το σημείο x(n βρίσκεται μέσα στον κύβο.

  36. Παράθυρα Parzen • Ο συνολικός αριθμός δειγμάτων μέσα στον κύβο είναι: • Και αν αντικαταστήσουμε στην έκφραση εκτίμησης της πυκνότητας πιθανότητας:

  37. Παράθυρα Parzen - Άσκηση • Βάσει των δεδομένων που ακολουθούν, χρησιμοποίησε τα παράθυρα Parzen να υπολογίσετε τη συνάρτηση πυκνότητας πιθανότητας στα σημεία y=3,10,15. Χρησιμοποιήστε h=4

  38. Παράθυρα Parzen - Λύση • Αν παραστήσουμε τα δεδομένα σε έναν άξονα, έχουμε:

  39. Εκτίμηση Πυκνότητας με k-NN • Επιλέγοντας σταθερή τιμή για το k και ορίζοντας ελάχιστο όγκο V στο σύνολο δεδομένωνπου περικλείει τα k σημεία, εφαρμόζουμε τη μέθοδο του k πλησιέστερου γείτονα (k Nearest Neighbor kNN)

  40. Εκτίμηση Πυκνότητας με k-NN • Στη μέθοδο k-NN μεγαλώνουμε τον όγκο που περικλείει το σημείο εκτίμησης xεωσότου περικλείει kσημεία δεδομένων. • Τότε η εκτίμηση πυκνότητας γίνεται: • Όπου Rk(x) είναι η απόσταση μεταξύ του σημείου εκτίμησης και του k-στού πλησιέστερου γείτονα. • cDείναι ο όγκος της μοναδιαίας σφαίρας στις D διαστάσεις, και είναι: • c1=2, c2=π, c3=4π/3 κλπ

  41. Εκτίμηση Πυκνότητας με k-NN

  42. Εκτίμηση Πυκνότητας με k-NN • Η εκτίμηση με k-NN δεν είναι πολύ ικανοποιητική καθώς: • Η προσέγγιση επηρεάζεται από τοπικό θόρυβο • Καθώς η συνάρτηση Rk(x) δεν είναι παραγωγίσιμη θα υπάρχουν ασυνέχειες. • Το αποτέλεσμα θα αποκλίνει σε όλο το δειγματοχώρο

  43. Εκτίμηση Πυκνότητας με kNN για δύο Gaussians

  44. Εκτίμηση Πυκνότητας με k-NN • Για δύο Gaussians όπου: • Εκτίμηση για k=10 γείτονες και Ν=200 δείγματα

  45. Εκτίμηση Πυκνότητας με k-NN Πραγματικά περιγράμματα Eκτίμησης με kNN

  46. k-NNvs Bayes classifier • Το μεγαλύτερο πλεονέκτημα της μεθόδου k-NN είναι ότι αποτελεί μια πολύ απλή προσέγγιση του Bayes classifier • Ας υποθέσουμε ότι έχουμε ένα σύνολο δεδομένων με N δείγματα και Niανήκουν στην κλάση ωi και θέλουμε να ταξινομήσουμε άγνωστο δείγμα xu • Θεωρούμε όγκο V γύρω από το xuμε k δείγματα συνολικά και έστω kiαπό ωi.

  47. kNNvs Bayes classifier • Μπορούμε να προσεγγίσουμε τη συνάρτηση πιθανότητας με k-NN ως: • Παρόμοια η συνάρτηση πυκνότητας θα είναι: • Και οι εκ των προτέρων πιθανότητα • Αν τα βάλουμε όλα μαζί στο ταξινομητή Bayes

  48. Ο κανόνας ταξινόμησης του kπλησιέστερου γείτονα (k-NN) • Ο κανόνας του k Nearest Neighbor Rule (kNN) είναι διαισθητική μέθοδο που ταξινομεί άγνωστα δείγματα με βάσει την ομοιότητα τους με τα δείγματα εκπαίδευσης. • Για δεδομένο άγνωστο πρότυπο xu βρες τα k «κοντινότερα» δείγματα από τα δεδομένα εκπαίδευσης και απέδωσε το xuστην κλάση που εμφανίζεται πιο πολύ στο k-υποσύνολο

  49. Κανόνας k-NN Απαιτεί μόνο: • Έναν ακέραιο k • Ένα σετ γνωστών δειγμάτων (σύνολο εκπαίδευσης) • Ένα μέτρο «απόστασης»

  50. Κανόνας k-NN • Στο παράδειγμα έχουμε 3 κλάσεις και άγνωστο δείγμα xu • Χρησιμοποιείται Ευκλείδεια απόσταση και k=5 γείτονες • 4 γείτονες ανήκουν στην ω1 και 1 ανήκει στην ω3 • Το xuκατατάσσεται στην ω1

More Related