1 / 135

Κανόνες Συσχέτισης I Ι

Κανόνες Συσχέτισης I Ι. Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, « Introduction to Data Mining» , Addison Wesley, 2006. Σύντομη Ανακεφαλαίωση. Εισαγωγή. Market-Basket transactions (Το καλάθι της νοικοκυράς!).

gabi
Download Presentation

Κανόνες Συσχέτισης I Ι

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Κανόνες Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

  2. Σύντομη Ανακεφαλαίωση ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  3. Εισαγωγή Market-Basket transactions (Το καλάθι της νοικοκυράς!) Το πρόβλημα: Δεδομένου ενός συνόλου δοσοληψιών(transactions), βρες κανόνες που προβλέπουν την εμφάνιση στοιχείων (item)με βάση την εμφάνιση άλλων στοιχείων στιςσυναλλαγές Παραδείγματα κανόνων συσχέτισης {Diaper}  {Beer},{Milk, Bread}  {Eggs,Coke},{Beer, Bread}  {Milk} δοσοληψία (transaction) στοιχείο (item) • Προώθηση προϊόντων • Τοποθέτηση προϊόντων στα ράφια • Διαχείριση αποθεμάτων Σημαίνει ότι εμφανίζονται μαζί, όχι ότι η εμφάνιση του ενός είναι η αιτία της εμφάνισης του άλλου (co-occurrence, not causality όχι έννοια χρόνου ή διάταξης) ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  4. Ορισμοί • στοιχειοσύνολο (itemset): Ένα υποσύνολο του συνόλου των στοιχείων • k-στοιχειοσύνολο (k-itemset):ένα στοιχειοσύνολο με kστοιχεία • support count () ενός στοιχειοσυνόλου: ο αριθμός εμφανίσεων του στοιχείου • Υποστήριξη (Support (s)) ενός στοιχειοσυνόλου Το ποσοστό των δοσοληψιών που περιέχουν ένα στοιχειοσύνολο • Συχνό Στοιχειοσύνολο (Frequent Itemset) Ένα στοιχειοσύνολο του οποίου η υποστήριξη είναι μεγαλύτερη ή ίση από κάποια τιμή κατωφλίου minsup ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  5. Ορισμοί • Κανόνας Συσχέτισης (Association Rule) • Είναι μια έκφραση της μορφής X  Y, • όπου X και Y είναι στοιχειοσύνολα • Χ  Ι, Υ  Ι, Χ  Υ =  • Παράδειγμα: {Milk, Diaper}  {Beer} • Υποστήριξη Κανόνα Support (s) Το ποσοστό των δοσοληψιών που περιέχουν και το X και το Y (Χ  Υ) • Εμπιστοσύνη - Confidence (c) Πόσες από τις δοσοληψίες (ποσοστό) που περιέχουν το Χ περιέχουν και το Υ Πρόβλημα • Εύρεση Κανόνων Συσχέτισης • Είσοδος: Ένα σύνολο από δοσοληψίες T • Έξοδος: Όλοι οι κανόνες με • support ≥ minsup • confidence ≥ minconf ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  6. Εξόρυξη Κανόνων Συσχέτισης • Χωρισμός του προβλήματος σε δύο υπο-προβλήματα: • Εύρεση όλων των συχνών στοιχειοσυνόλων (Frequent Itemset Generation) Εύρεση όλων των στοιχειοσυνόλων με υποστήριξη  minsup • Δημιουργία Κανόνων (Rule Generation) Για κάθε (συχνό) στοιχειοσύνολο, δημιούργησε κανόνες με μεγάλη υποστήριξη, όπου κάθε κανόνες είναι μια δυαδική διαμέριση (δηλ. χωρισμός στα δύο) του συχνού στοιχειοσυνόλου ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  7. Εύρεση Συχνών Στοιχειοσυνόλων Itemset Lattice - Πλέγμα Στοιχειοσυνόλων Όλα τα δυνατά στοιχειοσύνολα όταν έχουμε 5 στοιχεία Για d στοιχεία, 2dπιθανά στοιχειοσύνολα ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  8. Εύρεση Συχνών Στοιχειοσυνόλων: Στρατηγική apriori Αρχή Apriori Αν ένα στοιχειοσύνολο είναι συχνό, τότε όλα τα υποσύνολα του είναι συχνά null A B C D E Ή ισοδύναμα αν ένα στοιχειοσύνολο είναι μη συχνό, όλα τα υπερσύνολα του είναι μη συχνά AB AC AD AE BC BD BE CD CE DE βρέθηκε μη συχνό ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ABCE ABDE ACDE BCDE ψαλιδισμέναυπερσύνολα Support-based pruning Ψαλίδισμα με βάση την υποστήριξη ABCDE ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  9. Στρατηγική apriori Έστωk=1 #k: μήκος στοιχειοσυνόλου Παρήγαγε τα συχνά 1-στοιχειοσύνολα Repeat untilνα μην παράγονται νέα συχνά στοιχειοσύνολα • Παρήγαγε υποψήφια (k+1)-στοιχειοσύνολα • Ψαλίδισε τα υποψήφια στοιχειοσύνολα που περιέχουν μη συχνά στοιχειοσύνολα μεγέθους k • Υπολόγισε την υποστήριξη κάθε υποψήφιου (k+1)-στοιχειοσυνόλου διασχίζοντας τη βάση των δοσοληψιών • Σβήσε τα υποψήφια στοιχειοσύνολα που δεν είναι συχνά • k = k + 1 Γενικός Αλγόριθμος για την Εύρεση Συχνών Στοιχειοσυνόλων ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  10. Στρατηγική apriori: Δημιουργία Στοιχειοσυνόλων • Για την παραγωγή υποψήφιων k-στοιχειοσυνόλων • Fk-1 x F1 Επέκταση κάθε συχνού (k-1) στοιχειοσυνόλου με άλλα συχνά στοιχεία • Fk-1 x Fk-1 Συγχώνευση δύο συχνών (k-1) στοιχειοσυνόλου αν τα πρώτα k-2 στοιχεία τους είναι τα ίδια • Για να αποφύγουμε τη δημιουργία του ίδιου στοιχειοσυνόλου, κρατάμε κάθε στοιχειοσύνολο (λεξικογραφικά) ταξινομημένο Ψαλίδισμα • Είναι δυνατόν να γίνουν απλοί έλεγχοι αν τα παραγόμενα πιθανά στοιχειοσύνολα είναι συχνά ελέγχοντας αν τα υποσύνολα τους είναι συχνά και έτσι να αποφύγουμε να υπολογίσουμε την υποστήριξή τους ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  11. Στρατηγική apriori: Υπολογισμός Υποστήριξης Για κάθε νέο υποψήφιο k+1-στοιχειοσύνολο, πρέπει να υπολογίσουμε την υποστήριξή του Σε κάθε βήμα k+1 • Για να μειώσουμετον αριθμό των πράξεων, αποθηκεύουμε τα υποψήφια k+1-στοιχειοσύνολα σε ένα δέντρο κατακερματισμού • Αντί να ταιριάζουμε κάθε δοσοληψία με κάθε υποψήφιο στοιχειοσύνολο, κατακερματίζουμε τα k+1-στοιχειοσύνολα της δοσοληψίας και ενημερώνουμε μόνο τους αντίστοιχους κάδους του δέντρου κατακερματισμού των συχνών στοιχειοσυνόλων ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  12. Παραγωγή Κανόνων • Δοθέντος ενός συχνού στοιχειοσυνόλου L, βρες όλα τα μη κενά υποσύνολα f  L τέτοια ώστε ο κανόνας f  L – f ικανοποιεί τον περιορισμό της ελάχιστης εμπιστοσύνης • Η εμπιστοσύνη για τους κανόνες που παράγονται από το ίδιο στοιχειοσύνολο έχει μια αντι-μονότονη ιδιότητα • Για παράδειγμα L = {A,B,C,D}:c(ABC  D)  c(AB  CD)  c(A  BCD) • Η εμπιστοσύνη είναι αντι-μονότονη σε σχέση με των αριθμό των στοιχείων στο RHS του κανόνα ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  13. Παραγωγή Κανόνων για τον Αλγόριθμο apriori Πλέγμα Κανόνων για το Στοιχειοσύνολο {Α, B, C, D} Ψαλίδισμα με βάση την εμπιστοσύνη Έστω κόμβος με μικρή εμπιστοσύνη ABCD=>{ } Για κάθε συχνό στοιχειοσύνολο, ξεκινάμε με έναν κανόνα που έχει μόνο k=1 στοιχείο στο δεξί μέρος του Υπολογίζουμε την εμπιστοσύνη Παράγουμε κανόνες με k+1στοιχεία στο δεξί μέρος και υπολογίζουμε την εμπιστοσύνη τους Σημείωση: Για τον υπολογισμό της εμπιστοσύνης δεν χρειάζεται να διαπεράσουμε τη βάση BCD=>A ACD=>B ABD=>C ABC=>D CD=>AB BD=>AC BC=>AD AD=>BC AC=>BD AB=>CD D=>ABC C=>ABD B=>ACD A=>BCD Ψαλιδισμένοι κανόνες ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  14. Αναπαράσταση Στοιχειοσυνόλων • Τα στοιχειοσύνολα που παράγονται είναι πολλά, κάποια ίσως περιττά – οδηγούν σε παραγωγή πολλών κανόνων • Ποια να κρατήσουμε; • Ψάχνουμε για αντιπροσωπευτικά συχνά στοιχειοσύνολα (δηλαδή, να μπορούμε να πάρουμε από αυτά ακριβώς όλα τα συχνά και ιδεατά να μπορούμε να υπολογίσουμε και την υποστήριξη όλων των συχνών): • Maximal συχνά • Κλειστά συχνά ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  15. Αναπαράσταση Στοιχειοσυνόλων Συχνά Ένα στοιχειοσύνολο είναιmaximal συχνόαν κανένα από τα άμεσα υπερσύνολά του δεν είναι συχνό Προσφέρουν μια συνοπτική αναπαράσταση των συχνών στοιχειοσυνόλων: το μικρότερο σύνολο στοιχειοσυνόλων από το οποίο μπορούμε να πάρουμε όλα τα συχνά στοιχειοσύνολα – είναι τα υποσύνολά τους ΟΜΩΣ: Δεν προσφέρουν καμιά πληροφορία για την υποστήριξη των υποσυνόλων τους null A B C D E AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ABCE ABDE ACDE BCDE ABCD E Μη συχνά ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  16. Αναπαράσταση Στοιχειοσυνόλων Ένα στοιχειοσύνολο είναι κλειστό (closed) αν κανένα από τα άμεσα υπερσύνολα του δεν έχει την ίδια υποστήριξη με αυτό (δηλαδή, έχει μικρότερη υποστήριξη) Ένα στοιχειοσύνολο είναι κλειστό συχνό στοιχειοσύνολο αν είναι κλειστό και συχνό (δηλαδή, η υποστήριξη του είναι μεγαλύτερη ή ίση με minsup) Πάλι τα υποσύνολα τους μας δίνουν όλα τα συχνά υποσύνολα, τώρα όμως μπορούμε να υπολογίσουμε την υποστήριξη των υποσυνόλων τους Πως: Η υποστήριξη ενός μη κλειστού στοιχειοσυνόλου πρέπει να είναι ίση με την μεγαλύτερη υποστήριξη ανάμεσα στα υπερσύνολά του ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  17. TID στοιχεία 1 ABC 2 ABCD 3 BCE 4 ACDE 5 DE Αναπαράσταση Στοιχειοσυνόλων Maximal vs Closed Itemsets ΤIDs null 124 123 1234 245 345 A B C D E 12 124 24 123 4 2 3 24 34 45 AB AC AD AE BC BD BE CD CE DE 12 24 2 2 4 4 3 4 ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE 4 2 ABCD ABCE ABDE ACDE BCDE Δεν εμφανίζονται σε καμιά δοσοληψία ABCDE ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  18. Αναπαράσταση Στοιχειοσυνόλων Maximal vs Closed Itemsets Κλειστά αλλά όχι maximal Ελάχιστη υποστήριξη = 2 null 124 123 1234 245 345 A B C D E Κλειστά και maximal 12 124 24 123 4 2 3 24 34 45 AB AC AD AE BC BD BE CD CE DE 12 24 2 2 4 4 3 4 ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE 4 2 # Closed = 9 # Maximal = 4 ABCD ABCE ABDE ACDE BCDE Για να υπολογίσουμε όλα τα συχνά στοιχειοσύνολα και την υποστήριξη τους, ξεκινάμε από τα μεγαλύτερα κλειστά και προχωράμε ABCDE ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  19. Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  20. Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων • Ο Apriori από τους παλιότερους, αλλά: • Συχνά μεγάλο I/O επειδή κάνει πολλαπλά περάσματα στη βάση των δοσοληψιών • Κακή απόδοση όταν οι δοσοληψίες έχουν μεγάλο πλάτος • Άλλες μέθοδοι: • Διαφορετικές διασχίσεις του πλέγματος των στοιχειοσυνόλων • Αναπαράσταση Συνόλου Δοσoληψιών ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  21. Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων Apriori: Γενικά-προς-Συγκεκριμένα Πλέγμα Στοιχεισυνόλων null k-1 -> k A B C D E AB AC AD AE BC BD BE CD CE DE k -> k - 1 ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE Συγκεκριμένα-προς-Γενικά ABCD ABCE ABDE ACDE BCDE Αν αυτό είναι το συχνό, το βρίσκουμε αφού εξετάσουμε όλα τα υποσύνολά του Αν τα συχνά είναι προς το κατώτατο σημείο (bottom) τους πλέγματος, ίσως συμφέρει ABCDE ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  22. Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων Διάσχιση του Πλέγματος των Στοιχειοσυνόλων: Συγκεκριμένα-προς-Γενικά vs Γενικά-προς-Συγκεκριμένα k -> k – 1 (συγκεκριμένο-προς-γενικό) Πιο χρήσιμο για τον εντοπισμό maximal συχνών στοιχειοσυνόλων σε πυκνές (δηλ, με μεγάλο πλάτος δοσοληψίες) όπου το συχνό στοιχειοσύνολο βρίσκεται κοντά στο κατώτατο σημείο του πλέγματος Αν συχνό, δε χρειάζεται να ελέγξουμε κανένα από τα υποσύνολά του Γενικό-προς-Συγκεκριμένο Συγκεκριμένο-προς-Γενικό Διπλής Κατεύθυνσης ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  23. Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων Διάσχιση του Πλέγματος των Στοιχειοσυνόλων: Κλάσεις Ισοδυναμίας Χωρισμός των στοιχειοσυνόλων του πλέγματος σε ξένες μεταξύ τους ομάδες (κλάσεις ισοδυναμίας) και εξέταση των στοιχειοσυνόλων ανά κλάσεις Apriori: ορίζει τις κλάσεις με βάση το μήκος k των στοιχειοσυνόλων, πρώτα αυτά μήκους 1, μετά μήκους 2 κοκ Prefix (Suffix): Δύο στοιχειοσύνολα ανήκουν στην ίδια κλάση αν έχουν κοινό πρόθεμα (ή επίθημα-κατάληξη) μήκους k null null A B D A B D C C AB AC AD BC BD AB AC CD BC AD BD CD ABD ACD BCD ABC ABD ACD ABC BCD ABCD ABCD (a) Prefix tree (b) Suffix tree ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  24. Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων Διάσχιση του Πλέγματος των Στοιχειοσυνόλων: BFSvs DFS Apriori DFS: Depth-First-Search Διάσχιση κατά Βάθος BFS: Breadth-First-Search Διάσχιση κατά Πλάτος Χρήσιμο για την εύρεση maximal συχνών στοιχειοσυνόλων γιατί τα εντοπίζει πιο γρήγορα από το BFS Μόλις εντοπιστεί το maximal, είναι δυνατόν να κλαδευτούν πολλά υποσύνολα του ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  25. Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων Διάσχιση του Πλέγματος των Στοιχειοσυνόλων: BFSvs DFS Μπορούμε να κάνουμε prune όλο το υποδέντρο Prune μόνο τaab και ac Maximal συχνό στοιχειοσύνολο ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  26. TID Items A B C D E 1 A,B,E 1 1 2 2 1 2 B,C,D 4 2 3 4 3 3 C,E 5 5 4 5 6 4 A,C,D 6 7 8 9 5 A,B,C,D 7 8 9 6 A,E 8 10 7 A,B 9 8 A,B,C 9 A,C,D 10 B Άλλοι Τρόποι Υπολογισμού Αναπαράσταση της Βάσης Δεδομένων: Οριζόντια vs Κάθετη Εναλλακτικά: Για κάθε στοιχείο σε ποιες δοσοληψίες εμφανίζεται Αυτό χρησιμοποιεί ο apriori Κάθετη Διάρθρωση Δεδομένων Οριζόντια Διάρθρωση Δεδομένων Η υποστήριξη υπολογίζεται παίρνοντας τις τομές των TID-λιστών ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  27. Άλλοι Τρόποι Υπολογισμού Η υποστήριξη υπολογίζεται παίρνοντας τις τομές των TID-λιστών • Η υποστήριξη ενός k-στοιχειοσυνόλου υπολογίζεται παίρνοντας τις τομές των TID-λιστώνδύο από τα (k-1)-ύπο-στοιχειοσύνολα του. • Πλεονέκτημα: πολύ γρήγορος υπολογισμός της υποστήριξης • Πρόβλημα, αν οι TID-λίστες είναι μεγάλες και δε χωρούν στη μνήμη   Θα δούμε τον FP-Growth που χρησιμοποιεί μια prefix-based αναπαράσταση των δοσοληψιών ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  28. Ο Αλγόριθμος FP-Growth ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  29. Αλγόριθμος FP-Growth Με λίγα λόγια: • Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης με τη μορφή ενός FP-δέντρου • Το δέντρο μοιάζει με προθεματικό δέντρο - prefix tree (trie) • Ο αλγόριθμος κατασκευής διαβάζει μια δοσοληψία τη φορά, απεικονίζει τη δοσοληψία σε ένα μονοπάτι του FP-δέντρου • Μερικά μονοπάτια μπορεί να επικαλύπτονται: όσο περισσότερα μονοπάτια επικαλύπτονται, τόσο καλύτερη συμπίεση • Μόλις κατασκευαστεί το FP-δέντρο, ο αλγόριθμος χρησιμοποιεί μια αναδρομική διαίρει-και-βασίλευε (divide-and-conquer) προσέγγιση για την εξόρυξη των συχνών στοιχειοσυνόλων ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  30. Αλγόριθμος FP-Growth Κατασκευή FP-δέντρου To FP-δέντρο είναι ένα προθεματικό δέντρο Επειδή έχουμε σύνολα, κάπως πρέπει να τα διατάξουμε ώστε να βρίσκουμε προθέματα Δηλαδή δε μπορεί το ένα σύνολο να είναι {Α, Β} και το άλλο {Β, C, A} γιατί χάνουμε το κοινό πρόθεμα ΑΒ (ή ΒΑ) Άρα τα στοιχεία σε κάθε σύνολο πρέπει να ακολουθούν κάποια διάταξη, έστω τη λεξικογραφική (θα δούμε αργότερα αν κάτι άλλο συμφέρει καλύτερα) null Αρχικά, το δέντρο κενό ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  31. Αλγόριθμος FP-Growth Κατασκευή FP-δέντρου null Διάβασμα TID=1: A:1 B:1 Κάθε κόμβος έχει μια ετικέτα: ποιο στοιχείο και τη συχνότητα εμφάνισης (υποστήριξη) – πόσες δοσοληψίες φτάνουν σε αυτόν ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  32. Αλγόριθμος FP-Growth Κατασκευή FP-δέντρου null Διάβασμα TID=1: A:1 B:1 B:1 C:1 Διάβασμα TID=2: D:1 Κάθε κόμβος ετικέτα, ποιο στοιχείο και τη συχνότητα εμφάνισης (υποστήριξη) – πόσες δοσοληψίες φτάνουν σε αυτόν Επίσης, δείκτες μεταξύ των κόμβων που αναφέρονται στο ίδιο στοιχείο ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  33. Αλγόριθμος FP-Growth Κατασκευή FP-δέντρου null Διάβασμα TID=1, 2: A:1 B:1 B:1 C:1 D:1 Πίνακας Δεικτών Επίσης, κρατάμε πίνακα δεικτών για να βοηθήσουν στον υπολογισμό των συχνών στοιχειοσυνόλων ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  34. Αλγόριθμος FP-Growth Κατασκευή FP-δέντρου Διάβασμα TID=1, 2: null Διάβασμα TID=3 A:1 A:1 B:1 B:1 C:1 D:1 Πίνακας Δεικτών ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  35. Αλγόριθμος FP-Growth Κατασκευή FP-δέντρου Διάβασμα TID=1, 2: null Διάβασμα TID=3 A:2 B:1 B:1 C:1 C:1 D:1 Πίνακας Δεικτών D:1 E:1 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  36. Αλγόριθμος FP-Growth Κατασκευή FP-δέντρου Διάβασμα TID=1, 2: null Διάβασμα TID=3 A:2 B:1 B:1 C:1 C:1 D:1 Πίνακας Δεικτών D:1 E:1 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  37. Αλγόριθμος FP-Growth Κατασκευή FP-δέντρου null B:3 A:7 B:5 C:3 C:1 D:1 Πίνακας Δεικτών D:1 C:3 E:1 D:1 E:1 D:1 E:1 D:1 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  38. Αλγόριθμος FP-Growth Μέγεθος FP-δέντρου • Κάθε δοσοληψία αντιστοιχεί σε ένα μονοπάτι από τη ρίζα • Το μέγεθος του δέντρου συνήθως μικρότερο των δεδομένων, αν υπάρχουν κοινά προθέματα • Αν όλες οι δοσοληψίες τα ίδια δεδομένα, μόνο ένα κλαδί • Αν όλες διαφορετικές, ο χώρος μεγαλύτερος (γιατί αποθηκεύεται περισσότερη πληροφορία, όπως δείκτες μεταξύ των κόμβων αλλά και συχνότητες εμφάνισης) ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  39. TID Items 1 {Β,Α} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {Β,Α,C} 6 {Β,Α,C,D} 7 {B,C} 8 {Β,Α,C} 9 {Β,Α,D} 10 {B,C,E} Αλγόριθμος FP-Growth Το τελικό δέντρο, εξαρτάται από τη διάταξη: άλλη διάταξη -> άλλα προθέματα (Συνήθως) μικρότερο δέντρο, αν όχι λεξικογραφικά, αλλά με βάση τη συχνότητα εμφάνισης -> Αρχικά, διαβάζουμε όλα τα δεδομένα μια φορά ώστε να υπολογιστεί ο μετρητής υποστήριξης κάθε στοιχείου, και διατάσουμε τα στοιχεία με βάση αυτό Κατασκευή FP-δέντρου • Επίσης, αγνοούμε όσα στοιχεία είναι μη συχνά Για τo παράδειγμα, σ(Α)=7, σ(Β)=8, σ(C)=7, σ(D)=5, σ(Ε)=3 Άρα, διάταξη Β,Α,C,D,E ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  40. Αλγόριθμος FP-Growth Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων • Είσοδος: FP-δέντρο • Έξοδος: Συχνά στοιχειοσύνολα και η υποστήριξη τους • Μέθοδος • Διαίρει-και-Βασίλευε • Χωρίζουμε τα στοιχειοσύνολα σε αυτά που τελειώνουν σε E, D, C, B, A • Μετά αυτά που τελειώνουν σε E σε αυτά σε DE, CE, BE, AE κοκ ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  41. Αλγόριθμος FP-Growth Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Όλα τα στοιχειοσύνολα Ε D C B A DE CE BE AE CD BD AD BC AC AB CDE BDE ADE BCE ACE ABE BCD ACD ABD ABC ACDE BCDE ABDE ABCE ABCD ABCDE Όλα τα δυνατά στοιχειοσύνολα! ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  42. Αλγόριθμος FP-Growth Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Όλα τα στοιχειοσύνολα Ε D C B A συχνό; DE CE BE AE CD BD AD BC AC AB συχνό; CDE BDE ADE BCE ACE ABE BCD ACD ABD ABC συχνό; ACDEBCDE ABDE ABCE ABCD συχνό; ABCDE Όλα τα δυνατά στοιχειοσύνολα! ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  43. Αλγόριθμος FP-Growth Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Όλα τα στοιχειοσύνολα Ε D C B A συχνό; DE CE BE AE CD BD AD BC AC AB συχνό; CDEBDEADE BCE ACE ABE BCD ACD ABD ABC συχνό; συχνό; ACDEBCDE ABDE ABCE ABCD συχνό; ABCDE Όλα τα δυνατά στοιχειοσύνολα! ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  44. Αλγόριθμος FP-Growth Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Όλα τα στοιχειοσύνολα Ε D C B A συχνό; DE CE BE AE CD BD AD BC AC AB συχνό; CDE BDE ADE BCE ACE ABE BCD ACD ABD ABC συχνό; ACDEBCDE ABDE ABCE ABCD ABCDE Όλα τα δυνατά στοιχειοσύνολα! Στο δέντρο μπορεί να υπάρχουν λιγότερα! ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  45. Αλγόριθμος FP-Growth Χρήση FP-δέντρου για εύρεση συχνών στοιχειοσυνόλων null B:3 A:7 B:5 C:3 C:1 D:1 Header table D:1 C:3 D:1 E:1 E:1 D:1 Πως; Bottom-up traversal του δέντρου Αυτά που τελειώνουν σε E, μετά αυτά που τελειώνουν σε D, C, B και τέλος Α – suffix-based classes (επίθεμα – κατάληξη) E:1 D:1 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  46. Αλγόριθμος FP-Growth Υποπρόβλημα:Βρες συχνά στοιχειοσύνολα που τελειώνουν σε E null B:3 A:7 B:5 C:3 C:1 D:1 Header table D:1 C:3 D:1 E:1 E:1 D:1 E:1 D:1 • Θα δούμε στη συνέχεια πως υπολογίζεται η υποστήριξη για τα πιθανά στοιχειοσύνολα ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  47. Αλγόριθμος FP-Growth null Για το D B:3 A:7 B:5 C:3 C:1 D:1 Header table D:1 C:3 D:1 E:1 E:1 D:1 E:1 D:1 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  48. Αλγόριθμος FP-Growth null Για το C B:3 A:7 B:5 C:3 C:1 D:1 Header table D:1 C:3 D:1 E:1 E:1 D:1 E:1 D:1 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  49. Αλγόριθμος FP-Growth null Για το B B:3 A:7 B:5 C:3 C:1 D:1 Header table D:1 C:3 D:1 E:1 E:1 D:1 E:1 D:1 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

  50. Αλγόριθμος FP-Growth null Για το Α B:3 A:7 B:5 C:3 C:1 D:1 Header table D:1 C:3 D:1 E:1 E:1 D:1 E:1 D:1 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II

More Related