340 likes | 430 Views
Αναγνώριση Προτύπων. Σημερινό Μάθημα. Μη-επιβλεπόμενη εκπαίδευση ( Clustering) Μη-παραμετρική Μη-επιβλεπόμενη εκπαίδευση Μέτρα εγγύτητας Αλγόριθμος k-means ISODATA Ιεραρχικό clustering Δεντρογράμματα. Επιβλεπόμενη vs Μη-Επιβλεπόμενη Μάθηση.
E N D
Σημερινό Μάθημα • Μη-επιβλεπόμενη εκπαίδευση(Clustering) • Μη-παραμετρική Μη-επιβλεπόμενη εκπαίδευση • Μέτρα εγγύτητας • Αλγόριθμος k-means • ISODATA • Ιεραρχικό clustering • Δεντρογράμματα
Επιβλεπόμενη vs Μη-Επιβλεπόμενη Μάθηση • Μέχρι τώρα θεωρήσαμε μεθόδους αναγνώρισης με classification όπου το πρότυπο χαρακτηρίζεται από τα μεγέθη {x,ω} • Αυτά τα προβλήματα αναγνώρισης ονομάζονται Επιβλεπόμενα (supervised) αφού διατίθενται και το χαρακτηριστικό διάνυσμα και η σωστή απάντηση. • Υπάρχουν όμως περιπτώσεις όπου δίνεται το χαρακτηριστικό διάνυσμα χωρίς την κλάση. • Αυτές οι μέθοδοι καλούνται Μη-Επιβλεπόμενες (unsupervised) λόγω του ότι δεν χρησιμοποιούν τη σωστή απάντηση.
Επιβλεπόμενη vs Μη-Επιβλεπόμενη Μάθηση Αν και η μέθοδοι μη επιβλεπόμενης μάθηση φαίνονται περιορισμένων δυνατοτήτων υπάρχουν πολλές περιπτώσεις που επιβάλλεται η χρήση τους: • Ο χαρακτηρισμός πολλών δεδομένων μπορεί να αποβεί δαπανηρός (π.χ. αναγνώριση ομιλίας) • Το είδος της κλάσης μπορεί να μην είναι γνωστό εξ’αρχής.
Κατηγοριοποιήση των μη-επιβλεπόμενων μεθόδων εκμάθησης • Παραμετρικές (μείγματα κατανομών): Αυτές οι μέθοδοι μοντελοποιούν την υπό συνθήκη πυκνότητα πιθανότητας με ένα μίγμα παραμετρικών πυκνοτήτων με σκοπό να βρουν τις παραμέτρους του μοντέλου. • Μη-παραμετρικές (clustering): Δεν γίνεται υπόθεση για την πυκνότητα πιθανότητα αλλά επιχειρείται διαχωρισμός των δεδομένων σε κλάσεις.
Μη-παραμετρική Μη-επιβλεπόμενη εκπαίδευση • Δεν ασχολούμαστε με συναρτήσεις πυκνότητας • Αναζητούμε ομαδοποιήσεις (clusters) σε ένα σύνολο δεδομένων • Το μη παραμετρικό clustering συμπεριλαμβάνει 3 βήματα: • Ορισμός ενός μέτρου ομοιότητας (ανομοιότητας) μεταξύ των παραδειγμάτων • Ορισμός κριτηρίου για clustering (συνάρτηση) • Ορισμός αλγορίθμου βελτιστοποίησης της συνάρτησης κριτηρίου
Μέτρα εγγύτητας • Ένας κανόνας μέτρησης της απόστασης d(x,y) μεταξύ δύο διανυσμάτων x και y πρέπει να πληρεί τις ιδιότητες: • Αν έχει και την ιδιότητα: • Τότε καλείται νόρμα και δηλώνεται ως d(x,y)=||x-y||
Μέτρα εγγύτητας • Η πιο γενική μορφή ενός μέτρου απόστασης είναι
Γνωστά μέτρα εγγύτητας • Μέτρο Minkowski (Lk) Η επιλογή του kεξαρτάται από την έμφαση που θέλουμε να δώσουμε σε μεγάλες διαφορές μεταξύ διαστάσεων • Απόσταση Manhattan (L1 norm) • Όταν χρησιμοποιείται με δυαδικά διανύσματα είναι γνωστή και ως απόσταση Hamming
Γνωστά μέτρα εγγύτητας • Euclidean απόσταση (L2 norm) • Chebyshev απόσταση (L∞ norm)
Γνωστά μέτρα εγγύτητας • Μη γραμμική απόσταση: • Εσωτερικό γινόμενο (απαιτεί κανονικοποιημένα διανύσματα) • Correlation coefficient (συσχέτιση)
Συνάρτηση κριτηρίου για clustering • Όταν έχει ορισθεί μέτρο ομοιότητας (ανομοιότητας) χρειάζεται να ορίσουμε μια συνάρτηση κριτηρίου • Η πιο γνωστή συνάρτηση κριτηρίου για clustering είναι το άθροισμα τετραγωνικού λάθους • Μετράει πόσο καλά το σετ δεδομένων απέχει από τα κέντρα των clusters • Επίσης χρησιμοποιούνται οι scatter matrices από το LDA
Αξιοπιστία cluster • Η επιλογή του μέτρου ομοιότητας (ανομοιότητας) έχει άμεση επίδραση στα παραγόμενα clusters • H αξιοπιστία των clusters και το πλήθος τους είναι υποκειμενικά
Επαναληπτική βελτιστοποίηση • Άπαξ και οριστεί συνάρτηση κριτηρίου, απομένει να ορίσουμε διαμερισμό που να ελαχιστοποιεί το κριτήριο. • Εξαντλητική απαρίθμηση όλων των διαμερισμών δεν είναι εφικτή. • Φανταστείτε ότι πρόβλημα 5 clustersκαι 100 παραδειγμάτων δίνει 1067 διαμερισμούς.
Επαναληπτική βελτιστοποίηση Ο πιο κοινός τρόπος είναι η επαναληπτική προσέγγιση: • Βρες λογικό αρχικό διαμερισμό • Μετέφερε δείγματα ώστε να βελτιστοποιηθεί η συνάρτηση κριτηρίου • Τέτοιες προσεγγιστικές μέθοδοι παράγουν υποβέλτιστες λύσεις αλλά είναι υπολογιστικά βολικές
Επαναληπτική βελτιστοποίηση Υπάρχουν δύο κατηγορίες επαναληπτικών προσεγγίσεων: • Επίπεδοι αλγόριθμοι για clustering • Παράγουν σετ ανεξάρτητων clusters • Οι πιο γνωστοί είναι οι k-means και ISODATA • Ιεραρχικοί αλγόριθμοι για clustering • Το αποτέλεσμα είναι μια ιεραρχία εμφωλιασμένων clusters • Χωρίζονται στους ενωτικούς (agglomerative) και διαχωριστικούς (divisive)
Αλγόριθμος k-means • Είναι απλή διαδικασία clusteringπου επιδιώκει την ελαχιστοποίηση της συνάρτησης JMSE με επαναληπτική διαδικασία:
Αλγόριθμος k-means • Όρισε το πλήθος των clusters • Αρχικοποίησε clusters με: • Τυχαία κατανομή παραδειγμάτων στα clusters • Ή τυχαία επιλογή κέντρων clusters • Υπολόγισε το μέσο κάθε cluster • Απέδωσε κάθε δείγμα στο πλησιέστερο μέσο • Αν η κατανομή των δειγμάτων δεν άλλαξε τερμάτισε, αλλιώς βήμα 3
Αλγόριθμος k-means • Ο k-means χρησιμοποιείται στην επεξεργασία σήματος για διανυσματικό κβαντισμό • Μονοδιάστατα σήματα κβαντίζονται σε αριθμό επιπέδων για μετάδοση ή αποθήκευση με δυαδικό τρόπο • Κβαντίζουμε το πολυδιάστατο διάνυσμα επιλέγοντας ένα σετ πολυδιάστατων προτύπων (κέντρα clusters) • Αυτά τα κέντρα των clusters αποτελούν το codebook της εφαρμογής
ISODATA • ISODATA είναι συντομογραφία του Iterative Self-Organizing Data Analysis TechniqueAlgorithm • Είναι επέκταση του k-means που εμπεριέχει ευριστικούς τρόπους για την αυτόματη επιλογή του πλήθους των κλάσεων • Ο χρήστης επιλέγει τις παραμέτρους: • NMIN_EX ελάχιστο πλήθος δειγμάτων ανά cluster • ND επιθυμητό πλήθος cluster • σS2μέγιστη διασπορά για διαχωρισμό clusters • DMERGE μέγιστη απόσταση για ένωση clusters • NMERGE μέγιστο πλήθος clusters που μπορούν να ενωθούν
ISODATA • Εκτέλεσε k-means clustering • Διάσπασε όσα clusters έχουν αρκετά ανόμοια δεδομένα • Ένωσε όσα clusters έχουν αρκετά όμοια δεδομένα • Βήμα 1
ISODATA Πλεονεκτήματα • Διαθέτει δυνατότητες αυτό-οργάνωσης • Ευελιξία στον να καταργεί clusters με λίγα δείγματα • Ικανότητα να διαιρεί clustersμε ανομοιότητες • Ικανότητα να ενώνει clustersμε ομοιότητες Μειονεκτήματα • Τα δεδομένα πρέπει να είναι γραμμικά διαχωριζόμενα • Δύσκολος ο προκαθορισμός των παραμέτρων και καθοριστικός • Για μεγάλα σετ ή πλήθος clustersυπάρχουν καλύτεροι αλγόριθμοι Στην πράξη εφαρμόζεται για διάφορες παραμέτρους και επιλέγεται ο συνδυασμός με το μικρότερο τετραγωνικό σφάλμα
Ιεραρχικό clustering • O k-meansκαι ο ISODATA δημιουργούν ανεξάρτητα clusters με αποτέσμα μια επίπεδη αναπαράσταση των δεδομένων • Μερικές φορές επιθυμούμε ιεραρχική αναπαράσταση με clusters και sub-clusters σε δεντρική δομή • Οι ιεραρχικές μέθοδοι χωρίζονται σε: • Ενωτικές (Agglomerative ή bottom-up): ξεκινούν με Ν clustersπου ενώνονται διαδοχικά μέχρι να μείνει ένα • Διαχωριστικές (Divisive ή top-down): ξεκινούν με ένα clusterπου διασπάται μέχρι να δημιουργήθούν Ν
Δεντρογράμματα • Προτιμώνται για την αναπαράσταση ιεραρχικών clusters • Το δεντρόγραμμα είναι δυαδικό δέντρο που δείχνει τη δομή των clusters • Επιπλέον δείχνει το μέτρο ομοιότητας μεταξύ clusters • Εναλλακτική αναπαράσταση είναι με σύνολα {{x1, {x2, x3}}, {{{x4, x5}, {x6, x7}}, x8}} • Τα δεντρογράμματα δεν δίνουν ποσοτική πληροφορία Μεγάλη ομοιότητα Μικρή ομοιότητα
Διαχωριστικό Clustering • Όρισε NCclusters και NEXεπιθυμητό • Ξεκίνησε με ένα μεγάλο cluster • Βρες «χειρότερο» cluster • Διαίρεσε το • Αν NC< NEX πήγαινε στο 2
Διαχωριστικό Clustering • Επιλογή «χειρότερου» cluster • Μεγαλύτερο πλήθος δειγμάτων • Μεγαλύτερη διασπορά • Μεγαλύτερο τετραγωνικό λάθος • Διαχωρισμός clusters • Μέσο ή μεσαίο ως προς ένα χαρακτηριστικό • Κάθετα ως προς την κατεύθυνση μεγαλύτερης διασποράς • Η διαχωριστικοί είναι πιο επίπονοι υπολογιστικά από τους ενωτικούς
Ενωτικό Clustering Όρισε NCclusters και NEXεπιθυμητό Ξεκίνησε με NCcluster ενός μέλους Βρες «κοντινότερα» clusters Ένωσε τα Αν NC>Nex πήγαινε στο 2
Ενωτικό clustering Ελάχιστη Απόσταση • Όταν χρησιμοποιείται το dminγια την απόσταση μεταξύ clusters, πρόκειται για τον ΝΝ αλγόριθμο (single-linkage clustering) • Αν ο αλγόριθμος τρέξει μέχρι να μείνει ένα cluster έχουμε ελάχιστο δέντρο • Ευνοεί classes μεγάλου μήκους
Ενωτικό clustering Μέγιστη Απόσταση • Όταν χρησιμοποιείται το dmax πρόκειται για τον αλγόριθμο μακρύτερου γείτονα (farthestneighbor ή complete-linkage clustering) • Κάθε cluster αποτελεί υπο-γράφο • Ευνοεί συμπαγείς classes
Ενωτικό clustering Μεσαία και μέση απόσταση • Η ελάχιστη και μέγιστη απόσταση είναι ιδιαίτερα ευαίσθητες σε outliersκαθώς το μέτρο των μεταξύ κλάσεων αποστάσεων περιέχει μέγιστα ή ελάχιστα • Οι μέση και μεσαία απόσταση είναι πιο ευέλικτες • Η μεσαία απόσταση είναι πιο ελκυστική υπολογιστικά • Η μέση απόσταση περιλαμβάνει τον υπολογισμό NiNjαποστάσεων για κάθε ζεύγος cluster.
Ενωτικό clustering παράδειγμα • Εκτέλεσε ενωτικό clustering με ΝΝ για: X = {1, 3, 4, 9, 10, 13, 21, 23, 28, 29} • Ένωσε clustersμε single-linkage
Ενωτικό clustering, ελάχιστη Vs. μέγιστηαπόσταση • clustering 9 πόλεων στις USA