1.31k likes | 1.47k Views
Εξόρυξη Γνώσης από Δεδομένα. Γεώργιος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» paliourg@iit.demokritos.gr http://www.iit.demokritos.gr/~paliourg. Περιεχόμενα.
E N D
Εξόρυξη Γνώσης από Δεδομένα Γεώργιος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» paliourg@iit.demokritos.gr http://www.iit.demokritos.gr/~paliourg
Περιεχόμενα • Εξόρυξη γνώσης (knowledge discovery) και μηχανική μάθηση (machine learning) • Εκμάθηση ταξινομητών (learning classifiers) • Ομαδοποίηση (clustering) • Αποκάλυψη συσχετίσεων (association discovery) • Εξόρυξη από τον Παγκόσμιο Ιστό (Web mining) • Ανακεφαλαίωση © Georgios Paliouras
Περιεχόμενα • Εξόρυξη γνώσης (knowledge discovery) και μηχανική μάθηση (machine learning) • Εκμάθηση ταξινομητών (learning classifiers) • Ομαδοποίηση (clustering) • Αποκάλυψη συσχετίσεων (association discovery) • Εξόρυξη από τον Παγκόσμιο Ιστό (Web mining) • Ανακεφαλαίωση © Georgios Paliouras
Συστήματα βασισμένα στη γνώση • Προγράμματα που ενσωματώνουν γνώση, υπό μορφή κάποιου γνωσιακού μοντέλου, με στόχο την επίτευξη ευφυούς συμπεριφοράς. • Απαραίτητα για την επίλυση απαιτητικών προβλημάτων. • Αυξημένη ζήτηση στον Παγκόσμιο Ιστό. © Georgios Paliouras
Συστήματα βασισμένα στη γνώση • Παραδείγματα εφαρμογών: • Ιατρική, βιομηχανική και άλλη διάγνωση. • Λήψη αποφάσεων. • Αναζήτηση, εξαγωγή, φιλτράρισμα πληροφορίας στον Ιστό. • Αναπαράσταση και εκμετάλλευση σημασιολογικής πληροφορίας στον Ιστό. • Εξατομίκευση πληροφορικών συστημάτων. • Φυσικοί ή εικονικοί ευφυείς πράκτορες. • … © Georgios Paliouras
Συστήματα βασισμένα στη γνώση Σύντηξη πληροφορίας από πολλαπλά μέσα © Georgios Paliouras
Συστήματα βασισμένα στη γνώση • Βασικό πρόβλημα: Απόκτηση και ενημέρωση της απαιτούμενης γνώσης, ιδιαίτερα σε συστήματα που λειτουργούν: • σε δυναμικό περιβάλλον, • χωρίς καλά ορισμένο πρόβλημα, • περιορισμένες πηγές σαφώς ορισμένης και λειτουργικά περιγεγραμμένης γνώσης. © Georgios Paliouras
Εξόρυξη γνώσης από δεδομένα • Τι είναι εξόρυξη γνώσης: Αποκάλυψη ή παραγωγή λειτουργικής γνώσης, μέσω της ανάλυσης δεδομένων. • Συνδυάζει τεχνολογίες: • Μηχανικής μάθησης • Στατιστικής ανάλυσης δεδομένων • Βάσεων δεδομένων © Georgios Paliouras
Δεδομένα εκπαίδευσης Δεδομένα λειτουργίας Αποτελέσματα λειτουργίας Σύστημα γνώσης Γνώση ΟΧΙ εξόρυξη γνώσης Εξόρυξη γνώσης από δεδομένα Εξόρυξη γνώσης © Georgios Paliouras
Εξόρυξη γνώσης από δεδομένα Τι ΔΕΝ ΕΙΝΑΙ εξόρυξη γνώσης: Η λειτουργική διαδικασία που εξυπηρετεί το σύστημα γνώσης, π.χ. • Αναζήτηση, ανάκτηση, εξαγωγή, φιλτράρισμα, πληροφορίας. • Υποστήριξη λήψης αποφάσεων. • Εξατομίκευση πληροφοριακών συστημάτων. • Διάγνωση και πρόγνωση. • … © Georgios Paliouras
Εξόρυξη γνώσης από δεδομένα κύκλος εφαρμογής Κατανόηση προβλήματος τεχνικός κύκλος Επιλογή και διαμόρφωση δεδομένων Μάθηση Παρουσίαση και αξιολόγηση αποτελεσμάτων Εφαρμογή © Georgios Paliouras
Μηχανική Μάθηση • Τι είναι μηχανική μάθηση:Δημιουργία/Επιλογή/Βελτίωση ενός γνωσιακού μοντέλου από ένα εκπαιδευτικό σύνολο δεδομένων. • Παράδειγμα: Δημιουργία ενός μοντέλου «καλού πελάτη», με βάση παραδείγματα «καλών» και «κακών» πελατών. © Georgios Paliouras
Μηχανική Μάθηση © Georgios Paliouras
Μηχανική Μάθηση • Παράδειγμα μοντέλου «καλού πελάτη»: ΕΑΝΟικ. Κατ.: Έγγαμος ΚΑΙΗλικία >= 30Η Οικ. Κατ.: Με τέκνα ΚΑΙΦύλο: ΓΤΟΤΕ: «Καλός Πελάτης» • Παράδειγμα μοντέλου «κακού πελάτη»:ΕΑΝΟικ. Κατ.: ΆγαμοςΗΟικ. Κατ.: Έγγαμος ΚΑΙΗλικία < 30ΗΟικ. Κατ.: Με τέκνα ΚΑΙΦύλο: ΑΤΟΤΕ: «Κακός Πελάτης» © Georgios Paliouras
Μηχανική Μάθηση • Πώς μαθαίνει μία «μηχανή»; • Τι είδους γνώση χρειαζόμαστε; Πώς την αναπαριστούμε; • Τι είδους δεδομένων διαθέτουμε; Τι ποσότητα; Πώς τα αναπαριστούμε; • Τι αποτελεί ένα καλό μοντέλο; Πώς το αξιολογούμε με βάση τα δεδομένα εκπαίδευσης; • Πώς μπορούμε να κατασκευάσουμε/επιλέξουμε ένα καλό μοντέλο σε λογικό (χαμηλό πολυωνυμικό) χρόνο; © Georgios Paliouras
Μηχανική Μάθηση • Το είδος της γνώσης που χρειαζόμαστε καθορίζεται από τον τύπο προβλήματος που αντιμετωπίζει το σχετικό σύστημα γνώσης: • Ταξινόμηση: Μοντέλα Κ γνωστών κατηγοριών. • Αριθμητική πρόβλεψη: Συνάρτηση πρόβλεψης με αριθμητικό πεδίο τιμών. • Ομαδοποίηση: Μοντέλα Κ αγνώστων κατηγοριών. • Εξόρυξη συσχετίσεων: Μοντέλο συσχετίσεων μεταξύ ανεξάρτητων μεταβλητών. • Η αναπαράσταση της γνώσης διαφέρει για κάθε αλγόριθμο μάθησης. © Georgios Paliouras
Μηχανική Μάθηση • Τα δεδομένα που διαθέτουμε θα πρέπει να αντιστοιχούν στην αναζητούμενη γνώση: • Συνήθως διανυσματική αναπαράσταση: διάνυσμα χαρακτηριστικών (ανεξάρτητων μεταβλητών). • Ικανά χαρακτηριστικά για την περιγραφή του μοντέλου. • Τιμές εξαρτημένης μεταβλητής (κατηγορίας) για προβλήματα ταξινόμησης/πρόβλεψης. • Ικανή ποσότητα για τη δημιουργία καλού μοντέλου. • Αντιπροσωπευτικά του «συνόλου» των δεδομένων λειτουργίας του συστήματος γνώσης. © Georgios Paliouras
Μηχανική Μάθηση • Θεωρητικά, η αξιολόγηση του μοντέλου γίνεται με βάση την απόδοση του συστήματος γνώσης στο οποίο ενσωματώνεται και στο «σύνολο» των δεδομένων λειτουργίας. • Πρακτικά, η αξιολόγηση γίνεται με βάση την απόδοση του συστήματος γνώσης στα δεδομένα εκπαίδευσης.Υπόθεση: Αν ένα μοντέλο καλύπτει καλά ένα «ικανό» σύνολο δεδομένων εκπαίδευσης τότε καλύπτει καλά και το «σύνολο» των δεδομένων λειτουργίας. • Επιπλέον, αξιολογείται «δομικά» το μοντέλο, π.χ. η απλότητα/γενικότητα του, ώστε να αποφευχθεί το φαινόμενο της απομνημόνευσης των δεδομένων εκπαίδευσης. © Georgios Paliouras
Μηχανική Μάθηση • Πώς κατασκευάζουμε/επιλέγουμε ένα καλό μοντέλο; • Αναζήτηση στον χώρο των γενικευμένων μοντέλων για τα δεδομένα: • Χώρος αναζήτησης: καθορίζεται από την αναπαράσταση των μοντέλων. • Αρχική κατάσταση: το κενό μοντέλο(πιο γενικό), τα δεδομένα (πιο ειδικό) ή ένα τυχαίο μοντέλο. • Τελεστές: σταδιακή μεταβολή του μοντέλου, συνήθως εξειδίκευση ή γενίκευση. • Ευριστικά αξιολόγησης του μοντέλου: κάλυψη των δεδομένων και απλότητα/γενικότητα του μοντέλου. • Στόχος: εύρεση ενός καλού μοντέλου σε πολυωνυμικό χρόνο. © Georgios Paliouras
Μηχανική Μάθηση • Παράδειγμα αναζήτησης: • Σύνολο χαρακτηριστικών: Οικ. Κατ. (3 τιμές), Φύλο (2 τιμές), Περιοχή (5 τιμές). • Αριθμός διακριτών παραδειγμάτων: 30 • Αναπαράσταση μοντέλου: απλός συζευκτικός κανόνας, π.χ. ΕΑΝΟικ. Κατ.: Έγγαμος ΚΑΙΦύλο: Γ ΤΟΤΕ: «Καλός» • Αριθμός διακριτών μοντέλων: 217 • Σε πραγματικά προβλήματα, ο αριθμός αυτός είναι ΠΟΛΥ μεγαλύτερος (εκθετικός χώρος αναζήτησης). • Για παράδειγμα η διάζευξη δύο μόνο συζευκτικών κανόνων οδηγεί σε 4968 διακριτά μοντέλα! • Χρειαζόμαστε ευριστικές μεθόδους αναζήτησης. © Georgios Paliouras
Μηχανική Μάθηση • Είναι χρήσιμη η ταξινόμηση των μοντέλων με βάση τη γενικότητά τους (χώρος μοντέλων): Ειδικό Άγαμος, Άνδρας, Χαλάνδρι … … ΆγαμοςΧαλάνδρι ΆγαμοςΆνδρας ΆγαμοςΓυναίκα … Άγαμος Γυναίκα Έγγαμος {} Γενικό © Georgios Paliouras
πιο ειδικό μοντέλο γενίκευση ένα τυχαίο μοντέλο ειδίκευση πιο γενικό μοντέλο Μηχανική Μάθηση ένα καλό μοντέλο © Georgios Paliouras
Μηχανική Μάθηση • Γενίκευση: • Παράδειγμα καλού πελάτη #1: (Οικ. Κατ.: Έγγαμος, Φύλο: Α, Περ.: Αγ. Παρ.) • Μ1={Οικ. Κατ.: Έγγαμος, Φύλο: Α, Περ.: Αγ. Παρ.} • Παράδειγμα καλού πελάτη #2: (Οικ. Κατ.: Έγγαμος, Φύλο: Α, Περ.: Χαλάνδρι) • Μ2={Οικ. Κατ.: Έγγαμος, Φύλο: Α} • Παράδειγμα καλού πελάτη #3: (Οικ. Κατ.: Άγαμος, Φύλο: Γ, Περ.: Χαλάνδρι) • Μ3={} • Πρόβλημα: Περιορισμένη αναπαράσταση γνώσης. Δεν μπορεί να καλύψει τα παραδείγματα. © Georgios Paliouras
Μηχανική Μάθηση • Ειδίκευση: • Μ0={} • Παράδειγμα κακού πελάτη #1: (Οικ. Κατ.: Άγαμος, Φύλο: Α, Περ.: Αγ. Παρ.) • Μ1.1={Οικ. Κατ.: Έγγαμος}, Μ1.2={Οικ. Κατ.: Με τέκνα}, Μ1.3={Φύλο: Γ}, Μ1.4={Περ.: Χαλάνδρι}, Μ1.5=... • Παράδειγμα κακού πελάτη #2: (Οικ. Κατ.: Με τέκνα, Φύλο: Γ, Περ.: Χολαργός) • Μ1.1, Μ1.4, ..., Μ2.1={Οικ. Κατ.: Άγαμος, Φύλο: Γ}, Μ2.2= {Φύλο: Γ, Περ.: Αγ. Παρ.}, Μ2.3= {Οικ. Κατ.: Με τέκνα, Φύλο: Α}, Μ2.4=... • Παράδειγμα κακού πελάτη #3: (Οικ. Κατ.: Άγαμος, Φύλο: Γ, Περ.: Χαλάνδρι) • Μ1.1, ..., Μ2.2, Μ2.3, ..., Μ3.1={Οικ. Κατ.: Άγαμος, Φύλο: Γ, Περ.: Χολαργός}, Μ3.2=... © Georgios Paliouras
Μηχανική Μάθηση • Μάθηση υπό επίβλεψη: • Εκμάθηση ταξινομητών (classification): decision trees & rules, multi-layer perceptrons, logistic regression • Εκμάθηση μοντέλων πρόβλεψης (prediction): regression trees, multi-layer perceptrons, time-series analysis • Μάθηση χωρίς επίβλεψη: • Ομαδοποίηση (clustering): conceptual clustering, self-organising maps, statistical clustering • Εξόρυξη συσχετίσεων (associations): association rules, dependency networks © Georgios Paliouras
οικ.κατ. Ε Τ Α ηλικία>30 φύλο ΟΧΙ Α Γ Ν Ο ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ Φύλο Γ ν ο ΝΑΙ ΟΧΙ Α 20 25 30 Ηλικία Φ Η Ε Α Τ ΧΟ ΧΑ ΑΠ Μηχανική Μάθηση ΣυμβολικέςΔέντρα ΑποφάσεωνΚανόνες Συσχέτισης Αριθμητικές/ΣτατιστικέςΝευρωνικά δίκτυαΣτατιστικοί ταξινομητές (Ηλικία<=30) & (Οικ:Τ) -> (Φύλο:Γ) (Ηλικία<=30) & (Οικ:Π) -> (Φύλο:Γ) ... © Georgios Paliouras
Περιεχόμενα • Εξόρυξη γνώσης (knowledge discovery) και μηχανική μάθηση (machine learning) • Εκμάθηση ταξινομητών (learning classifiers) • Ομαδοποίηση (clustering) • Αποκάλυψη συσχετίσεων (association discovery) • Εξόρυξη από τον Παγκόσμιο Ιστό (Web mining) • Ανακεφαλαίωση © Georgios Paliouras
Εκμάθηση ταξινομητών • Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): <Ηλικία: 27, Οικ. Κατ.: Έγγαμος, Φύλο: Α, Απόφαση: ΝΑΙ> • Επιλογή ενός χαρακτηριστικούως κατηγορία. π.χ. Απόφαση. • Ταξινόμηση: υπολογισμός , π.χ. P(Απόφαση: ΝΑΙ |Ηλικία: 27, Οικ. Κατ.: Έγγαμος, Φύλο: Α). • Εκμάθηση ταξινομητή: υπολογισμός του «βέλτιστου» ταξινομητή με βάση τα δεδομένα. © Georgios Paliouras
Εκμάθηση ταξινομητών © Georgios Paliouras
Εκμάθηση ταξινομητών Απλοϊκός ταξινομητής κατά Bayes (Naive Bayes): Ο παρονομαστής αγνοείται. Εκτίμηση πιθανοτήτων και με μέγιστη πιθανοφάνεια (maximum likelihood) από τα δεδομένα. Η ακριβής εκτίμηση του απαιτεί τεράστιο όγκο δεδομένων. Απλουστευτική υπόθεση: © Georgios Paliouras
Εκμάθηση ταξινομητών P(Απ: ΝΑΙ)=0,5 P(Οικ: Έγγαμος | Απ: ΝΑΙ) =0,5 P(Ηλ: z | Απ: ΝΑΙ) =g(z; 32.25,5.32), … P(Απ: ΝΑΙ |Οικ: Έγγαμος, Φ:Α) ? P(Απ: ΟΧΙ |Οικ: Έγγαμος, Φ:Α) © Georgios Paliouras
Εκμάθηση ταξινομητών • Σχολιασμός: • Ο αφελής ταξινομητής Bayes δεν διεξάγει ουσιαστικά αναζήτηση στο χώρο των πιθανών υποθέσεων (πολύ ισχυρή επαγωγική κλίση). • Είναι ιδιαίτερα γρήγορος τόσο κατά την εκπαίδευση όσο και κατά την ταξινόμηση. O(mn)καιO(m)αντίστοιχα, όπου m: διάσταση του χώρου των χαρακτηριστικών, n: πλήθος των στιγμιοτύπων εκπαίδευσης. • Η υπόθεση της ανεξαρτησίας των χαρακτηριστικών σπάνια ισχύει, αλλά επίσης σπάνια αυτό έχει σημαντική επίπτωση στην επιλογής της κατάλληλης κατηγορίας. © Georgios Paliouras
Οικογ. κατ. Ηλικία>=30 Φύλο Εκμάθηση ταξινομητών Δέντρααποφάσεων (decision trees) Έγγαμος Με παιδιά Άγαμος ΟΧΙ ΝΑΙ ΟΧΙ Α Γ ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ © Georgios Paliouras
Εκμάθηση ταξινομητών • To προς εκμάθησημοντέλο αναπαριστάται με μία τέτοια δενδρική δομή. • Υπάρχουν δύο τύποι κόμβων: • Εσωτερικός Κόμβος:Διαιρεί το χώρο του προβλήματος (στιγμιότυπα) σε ομάδες, ανάλογα με την τιμή του χαρακτηριστικού με το οποίο αντιστοιχίζεται ο κόμβος (π.χ. «Φύλο» = {Α, Γ}). • Τερματικός Κόμβος:Αναθέτει τα στιγμιότυπα που καταλήγουν σε αυτόν σε μια συγκεκριμένη κατηγορία. © Georgios Paliouras
Εκμάθηση ταξινομητών • Διαδικασία Ταξινόμησης • Ξεκινάμε από τη ρίζα, ελέγχουμε την τιμή του αντίστοιχου χαρακτηριστικού στο προς ταξινόμηση στιγμιότυπο, και ακολουθούμε το μονοπάτι στο οποίο μας οδηγεί αυτή η τιμή. • Μεταβαίνουμε στον επόμενο κόμβο και επαναλαμβάνουμε τη διαδικασία. • Όταν φθάσουμε σε τερματικό κόμβο αναθέτουμε το άγνωστο στιγμιότυπο στην αντίστοιχη κατηγορία. © Georgios Paliouras
Οικογ. κατ. Ηλικία>=30 Φύλο Εκμάθηση ταξινομητών π.χ. X=<40, Άγαμος, Γ, Χαλάνδρι> Έγγαμος Με τέκνα Άγαμος ΟΧΙ ΝΑΙ ΟΧΙ Α Γ ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ © Georgios Paliouras
Εκμάθηση ταξινομητών • Αλγόριθμος εξειδίκευσης για την εκμάθηση δέντρων απόφασης (ID3, C4.5, See5, CART, …): • Επέλεξε το χαρακτηριστικό που πετυχαίνει τον καλύτερο διαχωρισμό μεταξύ των κατηγοριών. • Χώρισε τα δεδομένα σε υποσύνολα με βάση της τιμές του χαρακτηριστικού αυτού. • Για κάθε υποσύνολο που περιέχει περισσότερες από μία κατηγορίες, επανέλαβε τη διαδικασία. • Σταμάτησε εφόσον δεν υπάρχουν υποσύνολα που περιέχουν περισσότερες από μία κατηγορίες ή έχουν χρησιμοποιηθεί όλα τα χαρακτηριστικά. © Georgios Paliouras
Εκμάθηση ταξινομητών 3 3 2 3 © Georgios Paliouras
Εκμάθηση ταξινομητών 1 1 0 © Georgios Paliouras
Εκμάθηση ταξινομητών 0 0 1 © Georgios Paliouras
Οικογ. κατ. Ηλικία>=30 Φύλο Εκμάθηση ταξινομητών Δέντρααποφάσεων Έγγαμος Με παιδιά Άγαμος ΟΧΙ Ναι Οχι Α Γ ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ © Georgios Paliouras
Εκμάθηση ταξινομητών Εύρεση καλύτερου χαρακτηριστικού Αρχική «αβεβαιότητα»(εντροπία πληροφορίας): «Αβεβαιότητα» αν επιλεγεί το Χ: «Κέρδος πληροφορίας» (information gain) αν επιλεγεί το Χ: © Georgios Paliouras
Εκμάθηση ταξινομητών 0.66 0.65 0.69 0.48 0.69 © Georgios Paliouras
Εκμάθηση ταξινομητών Θόρυβος στα δεδομένα © Georgios Paliouras
Οικογ. κατ. Ηλικία=<37 Φύλο Φύλο Εκμάθηση ταξινομητών Υπερεστιασμένο δέντρο (overfitting) Ναι Οχι ΝΑΙ Άγαμος Με παιδιά Έγγαμος ΟΧΙ Α Γ Α Γ ΝΑΙ ΟΧΙ ΝΑΙ ΟΧΙ © Georgios Paliouras
Οικογ. κατ. Ηλικία=<37 Φύλο Εκμάθηση ταξινομητών Κλαδεμένο δέντρο Ναι Οχι ΝΑΙ Άγαμος Με παιδιά Έγγαμος ΟΧΙ ΝΑΙ Α Γ ΝΑΙ ΟΧΙ © Georgios Paliouras
Εκμάθηση ταξινομητών • Τεχνικές κλαδέματος δέντρων: • Πρόωρο σταμάτημα ανάπτυξης: π.χ. P(Ηλ: =<37, Οικ: Έγγαμος)<0.2 • Μετέπειτα κλάδεμα βασισμένο σε «απαισιόδοξη εκτίμηση σφάλματος» (pessimistic error pruning): Όπου το υπο-δέντροTtαντικαθιστάται από τη ρίζα τουt, που γίνεται φύλλο. err(t): αριθμός λαθών στο t, data(t): αριθμός παραδειγμάτων στο t © Georgios Paliouras
Εκμάθηση ταξινομητών • Αλγόριθμος κλαδέματος με βάση την «απαισιόδοξη εκτίμηση σφάλματος»:Για κάθε εσωτερικό κόμβο: • Έλεγχος για το αν η απομάκρυνσή του από το δένδρο, μαζί με το υποδένδρο του οποίου αποτελεί ρίζα, και η ανάθεση της συχνότερα εμφανιζόμενης κατηγορίας σε αυτό δε βλάπτει την ακρίβεια που μετράται σε κάποιο ανεξάρτητο σώμα επικύρωσης. • Επιλογή του κόμβου που υπόσχεται την καλύτερη απόδοση, και αποκοπή του υποδένδρου του. • Επιστροφή στο βήμα 1, όσο το δένδρο επιδέχεται βελτίωση, σύμφωνα με κάποιο δεδομένο κατώφλι. © Georgios Paliouras
Εκμάθηση ταξινομητών • Χαρακτηριστικά αναζήτησης: • Αναζήτηση στο χώρο όλων των δυνατών δένδρων απόφασης, με βάση τα συγκεκριμένα χαρακτηριστικά. • Οι περισσότεροι αλγόριθμοι υλοποιούν άπληστη ανάβαση (greedy hill-climbing): Διατήρηση ενός μόνο δέντρου σε κάθε βήμα χωρίς οπισθοδρομήσεις. Επιλέγεται η καλύτερη εναλλακτική για την ανάπτυξη κάθε κόμβου του δένδρου. • Προτιμώνται τα απλούστερα (μικρότερα) δένδρα. • Προτιμώνται δένδρα, στα οποία τα χαρακτηριστικά μικρότερης εντροπίας τοποθετούνται κοντά στη ρίζα. © Georgios Paliouras
Εκμάθηση ταξινομητών • Σύνοψη • Η εκμάθηση δενδρικών ταξινομητών αποτελεί μια από τις δημοφιλέστερες μεθόδους εκμάθησης ταξινομητών. • Ο χώρος μοντέλων περιλαμβάνει όλα τα δυνατά δένδρα απόφασης. • Προτιμώνται τα μικρότερα δένδρα. • Το φαινόμενο του υπερταιριάσματος αποτελεί ιδιαίτερα σημαντικό ζήτημα στην κατασκευή δενδρικών ταξινομητών. • Αντιμετώπισή του με μεθόδους κλαδέματος, προ και μετά της πλήρους ανάπτυξης του δένδρου. © Georgios Paliouras