1 / 131

Εξόρυξη Γνώσης από Δεδομένα

Εξόρυξη Γνώσης από Δεδομένα. Γεώργιος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» paliourg@iit.demokritos.gr http://www.iit.demokritos.gr/~paliourg. Περιεχόμενα.

shalin
Download Presentation

Εξόρυξη Γνώσης από Δεδομένα

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Εξόρυξη Γνώσης από Δεδομένα Γεώργιος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» paliourg@iit.demokritos.gr http://www.iit.demokritos.gr/~paliourg

  2. Περιεχόμενα • Εξόρυξη γνώσης (knowledge discovery) και μηχανική μάθηση (machine learning) • Εκμάθηση ταξινομητών (learning classifiers) • Ομαδοποίηση (clustering) • Αποκάλυψη συσχετίσεων (association discovery) • Εξόρυξη από τον Παγκόσμιο Ιστό (Web mining) • Ανακεφαλαίωση © Georgios Paliouras

  3. Περιεχόμενα • Εξόρυξη γνώσης (knowledge discovery) και μηχανική μάθηση (machine learning) • Εκμάθηση ταξινομητών (learning classifiers) • Ομαδοποίηση (clustering) • Αποκάλυψη συσχετίσεων (association discovery) • Εξόρυξη από τον Παγκόσμιο Ιστό (Web mining) • Ανακεφαλαίωση © Georgios Paliouras

  4. Συστήματα βασισμένα στη γνώση • Προγράμματα που ενσωματώνουν γνώση, υπό μορφή κάποιου γνωσιακού μοντέλου, με στόχο την επίτευξη ευφυούς συμπεριφοράς. • Απαραίτητα για την επίλυση απαιτητικών προβλημάτων. • Αυξημένη ζήτηση στον Παγκόσμιο Ιστό. © Georgios Paliouras

  5. Συστήματα βασισμένα στη γνώση • Παραδείγματα εφαρμογών: • Ιατρική, βιομηχανική και άλλη διάγνωση. • Λήψη αποφάσεων. • Αναζήτηση, εξαγωγή, φιλτράρισμα πληροφορίας στον Ιστό. • Αναπαράσταση και εκμετάλλευση σημασιολογικής πληροφορίας στον Ιστό. • Εξατομίκευση πληροφορικών συστημάτων. • Φυσικοί ή εικονικοί ευφυείς πράκτορες. • … © Georgios Paliouras

  6. Συστήματα βασισμένα στη γνώση Σύντηξη πληροφορίας από πολλαπλά μέσα © Georgios Paliouras

  7. Συστήματα βασισμένα στη γνώση • Βασικό πρόβλημα: Απόκτηση και ενημέρωση της απαιτούμενης γνώσης, ιδιαίτερα σε συστήματα που λειτουργούν: • σε δυναμικό περιβάλλον, • χωρίς καλά ορισμένο πρόβλημα, • περιορισμένες πηγές σαφώς ορισμένης και λειτουργικά περιγεγραμμένης γνώσης. © Georgios Paliouras

  8. Εξόρυξη γνώσης από δεδομένα • Τι είναι εξόρυξη γνώσης: Αποκάλυψη ή παραγωγή λειτουργικής γνώσης, μέσω της ανάλυσης δεδομένων. • Συνδυάζει τεχνολογίες: • Μηχανικής μάθησης • Στατιστικής ανάλυσης δεδομένων • Βάσεων δεδομένων © Georgios Paliouras

  9. Δεδομένα εκπαίδευσης Δεδομένα λειτουργίας Αποτελέσματα λειτουργίας Σύστημα γνώσης Γνώση ΟΧΙ εξόρυξη γνώσης Εξόρυξη γνώσης από δεδομένα Εξόρυξη γνώσης © Georgios Paliouras

  10. Εξόρυξη γνώσης από δεδομένα Τι ΔΕΝ ΕΙΝΑΙ εξόρυξη γνώσης: Η λειτουργική διαδικασία που εξυπηρετεί το σύστημα γνώσης, π.χ. • Αναζήτηση, ανάκτηση, εξαγωγή, φιλτράρισμα, πληροφορίας. • Υποστήριξη λήψης αποφάσεων. • Εξατομίκευση πληροφοριακών συστημάτων. • Διάγνωση και πρόγνωση. • … © Georgios Paliouras

  11. Εξόρυξη γνώσης από δεδομένα κύκλος εφαρμογής Κατανόηση προβλήματος τεχνικός κύκλος Επιλογή και διαμόρφωση δεδομένων Μάθηση Παρουσίαση και αξιολόγηση αποτελεσμάτων Εφαρμογή © Georgios Paliouras

  12. Μηχανική Μάθηση • Τι είναι μηχανική μάθηση:Δημιουργία/Επιλογή/Βελτίωση ενός γνωσιακού μοντέλου από ένα εκπαιδευτικό σύνολο δεδομένων. • Παράδειγμα: Δημιουργία ενός μοντέλου «καλού πελάτη», με βάση παραδείγματα «καλών» και «κακών» πελατών. © Georgios Paliouras

  13. Μηχανική Μάθηση © Georgios Paliouras

  14. Μηχανική Μάθηση • Παράδειγμα μοντέλου «καλού πελάτη»: ΕΑΝΟικ. Κατ.: Έγγαμος ΚΑΙΗλικία >= 30Η Οικ. Κατ.: Με τέκνα ΚΑΙΦύλο: ΓΤΟΤΕ: «Καλός Πελάτης» • Παράδειγμα μοντέλου «κακού πελάτη»:ΕΑΝΟικ. Κατ.: ΆγαμοςΗΟικ. Κατ.: Έγγαμος ΚΑΙΗλικία < 30ΗΟικ. Κατ.: Με τέκνα ΚΑΙΦύλο: ΑΤΟΤΕ: «Κακός Πελάτης» © Georgios Paliouras

  15. Μηχανική Μάθηση • Πώς μαθαίνει μία «μηχανή»; • Τι είδους γνώση χρειαζόμαστε; Πώς την αναπαριστούμε; • Τι είδους δεδομένων διαθέτουμε; Τι ποσότητα; Πώς τα αναπαριστούμε; • Τι αποτελεί ένα καλό μοντέλο; Πώς το αξιολογούμε με βάση τα δεδομένα εκπαίδευσης; • Πώς μπορούμε να κατασκευάσουμε/επιλέξουμε ένα καλό μοντέλο σε λογικό (χαμηλό πολυωνυμικό) χρόνο; © Georgios Paliouras

  16. Μηχανική Μάθηση • Το είδος της γνώσης που χρειαζόμαστε καθορίζεται από τον τύπο προβλήματος που αντιμετωπίζει το σχετικό σύστημα γνώσης: • Ταξινόμηση: Μοντέλα Κ γνωστών κατηγοριών. • Αριθμητική πρόβλεψη: Συνάρτηση πρόβλεψης με αριθμητικό πεδίο τιμών. • Ομαδοποίηση: Μοντέλα Κ αγνώστων κατηγοριών. • Εξόρυξη συσχετίσεων: Μοντέλο συσχετίσεων μεταξύ ανεξάρτητων μεταβλητών. • Η αναπαράσταση της γνώσης διαφέρει για κάθε αλγόριθμο μάθησης. © Georgios Paliouras

  17. Μηχανική Μάθηση • Τα δεδομένα που διαθέτουμε θα πρέπει να αντιστοιχούν στην αναζητούμενη γνώση: • Συνήθως διανυσματική αναπαράσταση: διάνυσμα χαρακτηριστικών (ανεξάρτητων μεταβλητών). • Ικανά χαρακτηριστικά για την περιγραφή του μοντέλου. • Τιμές εξαρτημένης μεταβλητής (κατηγορίας) για προβλήματα ταξινόμησης/πρόβλεψης. • Ικανή ποσότητα για τη δημιουργία καλού μοντέλου. • Αντιπροσωπευτικά του «συνόλου» των δεδομένων λειτουργίας του συστήματος γνώσης. © Georgios Paliouras

  18. Μηχανική Μάθηση • Θεωρητικά, η αξιολόγηση του μοντέλου γίνεται με βάση την απόδοση του συστήματος γνώσης στο οποίο ενσωματώνεται και στο «σύνολο» των δεδομένων λειτουργίας. • Πρακτικά, η αξιολόγηση γίνεται με βάση την απόδοση του συστήματος γνώσης στα δεδομένα εκπαίδευσης.Υπόθεση: Αν ένα μοντέλο καλύπτει καλά ένα «ικανό» σύνολο δεδομένων εκπαίδευσης τότε καλύπτει καλά και το «σύνολο» των δεδομένων λειτουργίας. • Επιπλέον, αξιολογείται «δομικά» το μοντέλο, π.χ. η απλότητα/γενικότητα του, ώστε να αποφευχθεί το φαινόμενο της απομνημόνευσης των δεδομένων εκπαίδευσης. © Georgios Paliouras

  19. Μηχανική Μάθηση • Πώς κατασκευάζουμε/επιλέγουμε ένα καλό μοντέλο; • Αναζήτηση στον χώρο των γενικευμένων μοντέλων για τα δεδομένα: • Χώρος αναζήτησης: καθορίζεται από την αναπαράσταση των μοντέλων. • Αρχική κατάσταση: το κενό μοντέλο(πιο γενικό), τα δεδομένα (πιο ειδικό) ή ένα τυχαίο μοντέλο. • Τελεστές: σταδιακή μεταβολή του μοντέλου, συνήθως εξειδίκευση ή γενίκευση. • Ευριστικά αξιολόγησης του μοντέλου: κάλυψη των δεδομένων και απλότητα/γενικότητα του μοντέλου. • Στόχος: εύρεση ενός καλού μοντέλου σε πολυωνυμικό χρόνο. © Georgios Paliouras

  20. Μηχανική Μάθηση • Παράδειγμα αναζήτησης: • Σύνολο χαρακτηριστικών: Οικ. Κατ. (3 τιμές), Φύλο (2 τιμές), Περιοχή (5 τιμές). • Αριθμός διακριτών παραδειγμάτων: 30 • Αναπαράσταση μοντέλου: απλός συζευκτικός κανόνας, π.χ. ΕΑΝΟικ. Κατ.: Έγγαμος ΚΑΙΦύλο: Γ ΤΟΤΕ: «Καλός» • Αριθμός διακριτών μοντέλων: 217 • Σε πραγματικά προβλήματα, ο αριθμός αυτός είναι ΠΟΛΥ μεγαλύτερος (εκθετικός χώρος αναζήτησης). • Για παράδειγμα η διάζευξη δύο μόνο συζευκτικών κανόνων οδηγεί σε 4968 διακριτά μοντέλα! • Χρειαζόμαστε ευριστικές μεθόδους αναζήτησης. © Georgios Paliouras

  21. Μηχανική Μάθηση • Είναι χρήσιμη η ταξινόμηση των μοντέλων με βάση τη γενικότητά τους (χώρος μοντέλων): Ειδικό Άγαμος, Άνδρας, Χαλάνδρι … … ΆγαμοςΧαλάνδρι ΆγαμοςΆνδρας ΆγαμοςΓυναίκα … Άγαμος Γυναίκα Έγγαμος {} Γενικό © Georgios Paliouras

  22. πιο ειδικό μοντέλο γενίκευση ένα τυχαίο μοντέλο ειδίκευση πιο γενικό μοντέλο Μηχανική Μάθηση ένα καλό μοντέλο © Georgios Paliouras

  23. Μηχανική Μάθηση • Γενίκευση: • Παράδειγμα καλού πελάτη #1: (Οικ. Κατ.: Έγγαμος, Φύλο: Α, Περ.: Αγ. Παρ.) • Μ1={Οικ. Κατ.: Έγγαμος, Φύλο: Α, Περ.: Αγ. Παρ.} • Παράδειγμα καλού πελάτη #2: (Οικ. Κατ.: Έγγαμος, Φύλο: Α, Περ.: Χαλάνδρι) • Μ2={Οικ. Κατ.: Έγγαμος, Φύλο: Α} • Παράδειγμα καλού πελάτη #3: (Οικ. Κατ.: Άγαμος, Φύλο: Γ, Περ.: Χαλάνδρι) • Μ3={} • Πρόβλημα: Περιορισμένη αναπαράσταση γνώσης. Δεν μπορεί να καλύψει τα παραδείγματα. © Georgios Paliouras

  24. Μηχανική Μάθηση • Ειδίκευση: • Μ0={} • Παράδειγμα κακού πελάτη #1: (Οικ. Κατ.: Άγαμος, Φύλο: Α, Περ.: Αγ. Παρ.) • Μ1.1={Οικ. Κατ.: Έγγαμος}, Μ1.2={Οικ. Κατ.: Με τέκνα}, Μ1.3={Φύλο: Γ}, Μ1.4={Περ.: Χαλάνδρι}, Μ1.5=... • Παράδειγμα κακού πελάτη #2: (Οικ. Κατ.: Με τέκνα, Φύλο: Γ, Περ.: Χολαργός) • Μ1.1, Μ1.4, ..., Μ2.1={Οικ. Κατ.: Άγαμος, Φύλο: Γ}, Μ2.2= {Φύλο: Γ, Περ.: Αγ. Παρ.}, Μ2.3= {Οικ. Κατ.: Με τέκνα, Φύλο: Α}, Μ2.4=... • Παράδειγμα κακού πελάτη #3: (Οικ. Κατ.: Άγαμος, Φύλο: Γ, Περ.: Χαλάνδρι) • Μ1.1, ..., Μ2.2, Μ2.3, ..., Μ3.1={Οικ. Κατ.: Άγαμος, Φύλο: Γ, Περ.: Χολαργός}, Μ3.2=... © Georgios Paliouras

  25. Μηχανική Μάθηση • Μάθηση υπό επίβλεψη: • Εκμάθηση ταξινομητών (classification): decision trees & rules, multi-layer perceptrons, logistic regression • Εκμάθηση μοντέλων πρόβλεψης (prediction): regression trees, multi-layer perceptrons, time-series analysis • Μάθηση χωρίς επίβλεψη: • Ομαδοποίηση (clustering): conceptual clustering, self-organising maps, statistical clustering • Εξόρυξη συσχετίσεων (associations): association rules, dependency networks © Georgios Paliouras

  26. οικ.κατ. Ε Τ Α ηλικία>30 φύλο ΟΧΙ Α Γ Ν Ο ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ Φύλο Γ ν ο ΝΑΙ ΟΧΙ Α 20 25 30 Ηλικία Φ Η Ε Α Τ ΧΟ ΧΑ ΑΠ Μηχανική Μάθηση ΣυμβολικέςΔέντρα ΑποφάσεωνΚανόνες Συσχέτισης Αριθμητικές/ΣτατιστικέςΝευρωνικά δίκτυαΣτατιστικοί ταξινομητές (Ηλικία<=30) & (Οικ:Τ) -> (Φύλο:Γ) (Ηλικία<=30) & (Οικ:Π) -> (Φύλο:Γ) ... © Georgios Paliouras

  27. Περιεχόμενα • Εξόρυξη γνώσης (knowledge discovery) και μηχανική μάθηση (machine learning) • Εκμάθηση ταξινομητών (learning classifiers) • Ομαδοποίηση (clustering) • Αποκάλυψη συσχετίσεων (association discovery) • Εξόρυξη από τον Παγκόσμιο Ιστό (Web mining) • Ανακεφαλαίωση © Georgios Paliouras

  28. Εκμάθηση ταξινομητών • Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): <Ηλικία: 27, Οικ. Κατ.: Έγγαμος, Φύλο: Α, Απόφαση: ΝΑΙ> • Επιλογή ενός χαρακτηριστικούως κατηγορία. π.χ. Απόφαση. • Ταξινόμηση: υπολογισμός , π.χ. P(Απόφαση: ΝΑΙ |Ηλικία: 27, Οικ. Κατ.: Έγγαμος, Φύλο: Α). • Εκμάθηση ταξινομητή: υπολογισμός του «βέλτιστου» ταξινομητή με βάση τα δεδομένα. © Georgios Paliouras

  29. Εκμάθηση ταξινομητών © Georgios Paliouras

  30. Εκμάθηση ταξινομητών Απλοϊκός ταξινομητής κατά Bayes (Naive Bayes): Ο παρονομαστής αγνοείται. Εκτίμηση πιθανοτήτων και με μέγιστη πιθανοφάνεια (maximum likelihood) από τα δεδομένα. Η ακριβής εκτίμηση του απαιτεί τεράστιο όγκο δεδομένων. Απλουστευτική υπόθεση: © Georgios Paliouras

  31. Εκμάθηση ταξινομητών P(Απ: ΝΑΙ)=0,5 P(Οικ: Έγγαμος | Απ: ΝΑΙ) =0,5 P(Ηλ: z | Απ: ΝΑΙ) =g(z; 32.25,5.32), … P(Απ: ΝΑΙ |Οικ: Έγγαμος, Φ:Α) ? P(Απ: ΟΧΙ |Οικ: Έγγαμος, Φ:Α) © Georgios Paliouras

  32. Εκμάθηση ταξινομητών • Σχολιασμός: • Ο αφελής ταξινομητής Bayes δεν διεξάγει ουσιαστικά αναζήτηση στο χώρο των πιθανών υποθέσεων (πολύ ισχυρή επαγωγική κλίση). • Είναι ιδιαίτερα γρήγορος τόσο κατά την εκπαίδευση όσο και κατά την ταξινόμηση. O(mn)καιO(m)αντίστοιχα, όπου m: διάσταση του χώρου των χαρακτηριστικών, n: πλήθος των στιγμιοτύπων εκπαίδευσης. • Η υπόθεση της ανεξαρτησίας των χαρακτηριστικών σπάνια ισχύει, αλλά επίσης σπάνια αυτό έχει σημαντική επίπτωση στην επιλογής της κατάλληλης κατηγορίας. © Georgios Paliouras

  33. Οικογ. κατ. Ηλικία>=30 Φύλο Εκμάθηση ταξινομητών Δέντρααποφάσεων (decision trees) Έγγαμος Με παιδιά Άγαμος ΟΧΙ ΝΑΙ ΟΧΙ Α Γ ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ © Georgios Paliouras

  34. Εκμάθηση ταξινομητών • To προς εκμάθησημοντέλο αναπαριστάται με μία τέτοια δενδρική δομή. • Υπάρχουν δύο τύποι κόμβων: • Εσωτερικός Κόμβος:Διαιρεί το χώρο του προβλήματος (στιγμιότυπα) σε ομάδες, ανάλογα με την τιμή του χαρακτηριστικού με το οποίο αντιστοιχίζεται ο κόμβος (π.χ. «Φύλο» = {Α, Γ}). • Τερματικός Κόμβος:Αναθέτει τα στιγμιότυπα που καταλήγουν σε αυτόν σε μια συγκεκριμένη κατηγορία. © Georgios Paliouras

  35. Εκμάθηση ταξινομητών • Διαδικασία Ταξινόμησης • Ξεκινάμε από τη ρίζα, ελέγχουμε την τιμή του αντίστοιχου χαρακτηριστικού στο προς ταξινόμηση στιγμιότυπο, και ακολουθούμε το μονοπάτι στο οποίο μας οδηγεί αυτή η τιμή. • Μεταβαίνουμε στον επόμενο κόμβο και επαναλαμβάνουμε τη διαδικασία. • Όταν φθάσουμε σε τερματικό κόμβο αναθέτουμε το άγνωστο στιγμιότυπο στην αντίστοιχη κατηγορία. © Georgios Paliouras

  36. Οικογ. κατ. Ηλικία>=30 Φύλο Εκμάθηση ταξινομητών π.χ. X=<40, Άγαμος, Γ, Χαλάνδρι> Έγγαμος Με τέκνα Άγαμος ΟΧΙ ΝΑΙ ΟΧΙ Α Γ ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ © Georgios Paliouras

  37. Εκμάθηση ταξινομητών • Αλγόριθμος εξειδίκευσης για την εκμάθηση δέντρων απόφασης (ID3, C4.5, See5, CART, …): • Επέλεξε το χαρακτηριστικό που πετυχαίνει τον καλύτερο διαχωρισμό μεταξύ των κατηγοριών. • Χώρισε τα δεδομένα σε υποσύνολα με βάση της τιμές του χαρακτηριστικού αυτού. • Για κάθε υποσύνολο που περιέχει περισσότερες από μία κατηγορίες, επανέλαβε τη διαδικασία. • Σταμάτησε εφόσον δεν υπάρχουν υποσύνολα που περιέχουν περισσότερες από μία κατηγορίες ή έχουν χρησιμοποιηθεί όλα τα χαρακτηριστικά. © Georgios Paliouras

  38. Εκμάθηση ταξινομητών 3 3 2 3 © Georgios Paliouras

  39. Εκμάθηση ταξινομητών 1 1 0 © Georgios Paliouras

  40. Εκμάθηση ταξινομητών 0 0 1 © Georgios Paliouras

  41. Οικογ. κατ. Ηλικία>=30 Φύλο Εκμάθηση ταξινομητών Δέντρααποφάσεων Έγγαμος Με παιδιά Άγαμος ΟΧΙ Ναι Οχι Α Γ ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ © Georgios Paliouras

  42. Εκμάθηση ταξινομητών Εύρεση καλύτερου χαρακτηριστικού Αρχική «αβεβαιότητα»(εντροπία πληροφορίας): «Αβεβαιότητα» αν επιλεγεί το Χ: «Κέρδος πληροφορίας» (information gain) αν επιλεγεί το Χ: © Georgios Paliouras

  43. Εκμάθηση ταξινομητών 0.66 0.65 0.69 0.48 0.69 © Georgios Paliouras

  44. Εκμάθηση ταξινομητών Θόρυβος στα δεδομένα © Georgios Paliouras

  45. Οικογ. κατ. Ηλικία=<37 Φύλο Φύλο Εκμάθηση ταξινομητών Υπερεστιασμένο δέντρο (overfitting) Ναι Οχι ΝΑΙ Άγαμος Με παιδιά Έγγαμος ΟΧΙ Α Γ Α Γ ΝΑΙ ΟΧΙ ΝΑΙ ΟΧΙ © Georgios Paliouras

  46. Οικογ. κατ. Ηλικία=<37 Φύλο Εκμάθηση ταξινομητών Κλαδεμένο δέντρο Ναι Οχι ΝΑΙ Άγαμος Με παιδιά Έγγαμος ΟΧΙ ΝΑΙ Α Γ ΝΑΙ ΟΧΙ © Georgios Paliouras

  47. Εκμάθηση ταξινομητών • Τεχνικές κλαδέματος δέντρων: • Πρόωρο σταμάτημα ανάπτυξης: π.χ. P(Ηλ: =<37, Οικ: Έγγαμος)<0.2 • Μετέπειτα κλάδεμα βασισμένο σε «απαισιόδοξη εκτίμηση σφάλματος» (pessimistic error pruning): Όπου το υπο-δέντροTtαντικαθιστάται από τη ρίζα τουt, που γίνεται φύλλο. err(t): αριθμός λαθών στο t, data(t): αριθμός παραδειγμάτων στο t © Georgios Paliouras

  48. Εκμάθηση ταξινομητών • Αλγόριθμος κλαδέματος με βάση την «απαισιόδοξη εκτίμηση σφάλματος»:Για κάθε εσωτερικό κόμβο: • Έλεγχος για το αν η απομάκρυνσή του από το δένδρο, μαζί με το υποδένδρο του οποίου αποτελεί ρίζα, και η ανάθεση της συχνότερα εμφανιζόμενης κατηγορίας σε αυτό δε βλάπτει την ακρίβεια που μετράται σε κάποιο ανεξάρτητο σώμα επικύρωσης. • Επιλογή του κόμβου που υπόσχεται την καλύτερη απόδοση, και αποκοπή του υποδένδρου του. • Επιστροφή στο βήμα 1, όσο το δένδρο επιδέχεται βελτίωση, σύμφωνα με κάποιο δεδομένο κατώφλι. © Georgios Paliouras

  49. Εκμάθηση ταξινομητών • Χαρακτηριστικά αναζήτησης: • Αναζήτηση στο χώρο όλων των δυνατών δένδρων απόφασης, με βάση τα συγκεκριμένα χαρακτηριστικά. • Οι περισσότεροι αλγόριθμοι υλοποιούν άπληστη ανάβαση (greedy hill-climbing): Διατήρηση ενός μόνο δέντρου σε κάθε βήμα χωρίς οπισθοδρομήσεις. Επιλέγεται η καλύτερη εναλλακτική για την ανάπτυξη κάθε κόμβου του δένδρου. • Προτιμώνται τα απλούστερα (μικρότερα) δένδρα. • Προτιμώνται δένδρα, στα οποία τα χαρακτηριστικά μικρότερης εντροπίας τοποθετούνται κοντά στη ρίζα. © Georgios Paliouras

  50. Εκμάθηση ταξινομητών • Σύνοψη • Η εκμάθηση δενδρικών ταξινομητών αποτελεί μια από τις δημοφιλέστερες μεθόδους εκμάθησης ταξινομητών. • Ο χώρος μοντέλων περιλαμβάνει όλα τα δυνατά δένδρα απόφασης. • Προτιμώνται τα μικρότερα δένδρα. • Το φαινόμενο του υπερταιριάσματος αποτελεί ιδιαίτερα σημαντικό ζήτημα στην κατασκευή δενδρικών ταξινομητών. • Αντιμετώπισή του με μεθόδους κλαδέματος, προ και μετά της πλήρους ανάπτυξης του δένδρου. © Georgios Paliouras

More Related