1 / 27

Εξόρυξη Γνώσης Από Χωρικά Δεδομένα Φροντιστήριο Αγγελική Σκούρα

Εξόρυξη Γνώσης Από Χωρικά Δεδομένα Φροντιστήριο Αγγελική Σκούρα ( skoura@ceid.upatras.gr ). Χωρικά vs. μη-χωρικά δεδομένα. Παραδείγματα μη-χωρικών δεδομένων – Ονόματα, τηλέφωνα, διευθύνσεις email, ... • Παραδείγματα χωρικών δεδομένων – Δημογραφικά δεδομένα – Μετεωρολογικά δεδομένα

derry
Download Presentation

Εξόρυξη Γνώσης Από Χωρικά Δεδομένα Φροντιστήριο Αγγελική Σκούρα

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Εξόρυξη Γνώσης Από Χωρικά Δεδομένα Φροντιστήριο Αγγελική Σκούρα (skoura@ceid.upatras.gr)

  2. Χωρικά vs. μη-χωρικά δεδομένα Παραδείγματα μη-χωρικών δεδομένων – Ονόματα, τηλέφωνα, διευθύνσεις email, ... • Παραδείγματα χωρικών δεδομένων – Δημογραφικά δεδομένα – Μετεωρολογικά δεδομένα – Κτηματολόγιο, δασολόγιο, κλπ. – Ιατρικές εικόνες

  3. Εξόρυξη Χωρικών Δεδομένων Χωρικό Αντικείμενο Τομείς Εφαρμογής • Χωρικό Αντικείμενο • Είναι αντικείμενο με μια χωρική συνιστώσα • Περιγράφεται από χωρικά και μη χωρικά γνωρίσματα • Σε αυτά μπορεί να περιλαμβάνεται κάποιος τύπος σχετικόςμε θέση: • Γεωγραφικό Μήκος και Πλάτος • Ταχυδρομικός Κωδικός • Διεύθυνση • Η ανάκτηση του αντικειμένου θα πρέπει να είναι δυνατή μεχρήση χωρικών ή/και μη χωρικών γνωρισμάτων • Προσπέλαση • Τα χωρικά δεδομένα μπορούν να προσπελασθούν χρησιμοποιώντας ερωτήσεις που περιέχουν χωρικούς τελεστές όπως οι τελεστές «κοντά», «βόρεια», «νότια», «γειτονικά» και «περιέχεται σε» Συστήματα Γεωγραφικών Πληροφοριών (GIS) Περιβαλλοντολογία Γεωλογία Γεωργία Ιατρική Ρομποτική Οπουδήποτε παίζει ρόλο η χωρική διάσταση

  4. Εξόρυξη Χωρικών Δεδομένων • Η εξόρυξη γνώσης από σύνολο χωρικών δεδομένων (spatialdatamining) αποσκοπεί στην ανακάλυψη κρυμμένων συσχετίσεων και χαρακτηριστικών που ενυπάρχουν στα στοιχεία • Δηλ. πραγματοποιείται αναζήτηση για χρήσιμα, μη-τετριμμένα πρότυπα σε χωρικές βάσεις δεδομένων • Στόχοι Ανάλυσης Χωρικών Δεδομένων: • Επαγωγικές Ερωτήματα (Deductive Querying), π.χ.searching, sorting, overlays • Απαγωγική Εξόρυξη (Inductive Mining), π.χ. statistics, correlation, clustering, classification • Παραδείγματα Εφαρμογών: • Infer land-use classification from satellite imagery • Identify cancer clusters and geographic factors with high correlation • Identify crime hotspots to assign police patrols and social workers

  5. Χωρικά Ερωτήματα • Τυπικές χωρικές ερωτήσεις είναι οι ακόλουθες: • ερώτηση σημείου (pointquery): δοθέντος ενός σημείου p, βρες όλα τα αντικείμενα που περιέχουν το p. • ερώτηση περιοχής (rangequery): δοθέντος ενός ορθογωνίου r, βρες όλα τα αντικείμενα με όλα τα αντικείμενα με ένα τουλάχιστον σημείο κοινό με το r. • ερώτηση κατεύθυνσης (directionquery): δοθέντος ενός αντικειμένου o και μιας κατευθυντήριας σχέσης R (π.χ. βόρεια, αριστερά), βρες όλα τα αντικείμενα που βρίσκονται στην κατεύθυνση R σχετικά με το o. • ερώτηση κοντινότερου γείτονα (nearest-neighborquery): δοθέντος ενός αντικειμένου o, βρες όλα τα αντικείμενα που απέχουν ελάχιστη απόσταση από το o. Πηγή: Διδακτορική Διατριβή κ. Ιωάννη Θεοδωρίδη με τίτλο «Χωρικές Δομές Δεδομένων: Αναλυτικά Μοντέλα και Αποδοτικοί Αλγόριθμοι»

  6. Απόσταση μεταξύ Χωρικών Αντικειμένων • Σημειακά αντικείμενα • Ευκλείδεια, Manhattan • Μη σημειακά αντικείμενα • Κάθε χωρικό αντικείμενο θεωρείται ως μια συστάδα των σημείων εντός του

  7. Χωρική Εξόρυξη Γνώσης

  8. Κατηγορίες Αλγορίθμων Χωρικής Συσταδοποίησης • Partitioning algorithms, such as k-means and CLARANS, cannot be utilized to discover clusters of arbitrary shapes and different densities, and their clustering results are usually influenced by noise • In practical applications, it is difficult to determine the number of clusters for the partitioning algorithm • In addition, most partitioning algorithms cannot consider both geometrical properties and attributes together • Traditional hierarchical algorithms, such as single- and complete-link, CURE, CHAMELEON, and BIRCH, can detect clusters of more complicated shapes, most of them cannot discover clusters of arbitrary shape • Density-based algorithms aim to identify dense regions that are separated by low-density regions. The two most important advantages of density-based algorithms are that they can discover clusters of arbitrary shape and they do not require a user to input the number of clusters • Graph-based algorithms usually employ a special graph structure to describe the spatial proximity among objects, and then delete the ‘inconsistent edge’ to form a set of sub-graphs. Graph-based algorithms are able to discover clusters of arbitrary shape and require few input parameters. However, they may not be reliable when the density varies between clusters or when a large amount of noise exists in a spatial database • Model-based algorithms are usually based on statistical theory or intelligence computing tools • Grid-based algorithms, such as WaveCluster and STING, usually employ a gridded data structure to enhance the efficiency of clustering

  9. Spatial Database Indexing • Trees are frequently used to index spatial data. • Quad Tree: based upon assigning data to spatial quadrants • R-Tree: based on range of values (Lat,Long) assigned to the set of MBR’s. • k-D Tree: a binary search tree in K dimensions • … and many more • Searching a tree-based index is fast

  10. STING • Οι βασικές Grid-Based μέθοδοι συσταδοποίησης: • STING (a STatisticalINformation Grid approach, 1997) • WaveCluster (VLDB’98) • A multi-resolution clustering approach using wavelet method • CLIQUE (SIGMOD’98) • Ο STING Αλγόριθμος • Ο στόχος είναι η συσταδοποίηση (ως προς την θέση) των εγγραφών που υπάρχουν σε ένα πίνακα • Μπορεί να θεωρηθεί και ως τεχνική ιεραρχικής συσταδοποίησης, αφού χρησιμοποιεί μια ιεραρχική τεχνική για τη διαίρεση τωνχωρικών περιοχών σε ορθογώνια κελιά • Κάθε κόμβος στη δομή πλέγματος συνοψίζει την πληροφορία για τα στοιχεία εντός της • Η τοποθέτηση μιας εγγραφής σε ένα grid cell καθορίζεται πλήρως από τη φυσική του θέση Το 1o επίπεδο είναι το γενικό, το n-oστό επίπεδο είναι το πιο ειδικό

  11. Ο Αλγόριθμος STING Build STING Build STING Retrieve

  12. Η Ιεραρχική Δομή της Συσταδοποίησης Sting • Η χωρική περιοχή χωρίζεται σε τετραγωνικά cells • π.χ. χρησιμοποιώντας latitude και longitude • Κάθε κελί σχηματίζει μια ιεραρχική δομή • Αυτό σημαίνει ότι κάθε κελί υψηλότερου επίπεδου διαχωρίζεται σε 4 μικρότερα κελιά χαμηλότερου επίπεδου • Με άλλα λόγια, κάθε κελί στοi-οστό επίπεδο (εκτός από τα φύλλα) έχει 4 παιδία στο i+1 επίπεδο • Η ένωση των 4 παιδιών-cells θα επιστρέψει το γονικό κελί του προηγούμενου επιπέδου • Το μέγεθος • των cells στο επιπέδο των φύλλων και • το πλήθος των επιπέδων εξαρτάται από το βαθμό «κοκοποίησης»(granularity) που επιθυμεί ο χρήστης

  13. Αποθήκευση Στατιστικών Παραμέτρων • Η στατιστική πληροφορία σχετικά με τα γνωρίσματα σε κάθε grid cell, για κάθε επίπεδο προ-υπολογίζονται και αποθηκεύονται • Οι στατιστικές παράμετροι για τα κελιά του χαμηλότατου επιπέδου υπολογίζονται κατευθείαν από τις τιμές που υπάρχουν στον πίνακα • Οι στατιστικές παράμετροι για τα κελιά όλων των άλλων επιπέδων υπολογίζονται από τα αντίστοιχα κελιά των παιδιών του χαμηλότερου επιπέδου • Για κάθε κελί όλων των επιπέδων, έχουμε στατιστικές παραμέτρους εξαρτώμενες και ανεξάρτητες των γνωρισμάτων • Attribute Independent Parameter • Count : number of records in this cell • Attribute Dependent Parameter • Για κάθεγνώρισμα κάθε κελιού, αποθηκεύονται οι ακόλουθες παράμετροι: • M  mean of all values of each attribute in this cell • S  Standard Deviation of all values of each attribute in this cell • Min  The minimum value for each attribute in this cell • Max  The maximum value for each attribute in this cell • Distribution  The type of distribution that the attribute value in this cell follows. (e.g. normal, exponential, etc.) None is assigned to “Distribution” if the distribution is unknown

  14. Απάντηση Ερωτημάτων • Ο STING μπορεί να απαντήσει αρκετά χωρικά ερωτήματααποδοτικά, διότι δεν χρειάζεται να αποκτήσουμε πρόσβαση στην πλήρη βάση δεδομένων • Πως επεξεργάζονται τα ερωτήματα? • Χρησιμοποιούμε μια top-downπροσέγγιση • Ξεκινάμε από ένα προ-επιλεγμένο επίπεδο • Το προ-επιλεγμένο επίπεδο δεν είναι απαραίτητα το πιο ψηλό επίπεδο • Για κάθε κελί του τρέχοντος επιπέδου, υπολογίζεται το confidence interval (εύρος πιθανότητας) που αντανακλά τα σχετικά κελία για το δεδομένο ερώτημα • Το confidence interval υπολογίζεται χρησιμοποιώντας τις στατιστικές παραμέτρους κάθε κελιού • Απομάκρυνση μη σχετικών κελιών από επιπλέον επεξεργασία • Όταν ολοκληρωθεί η επεξεργασία του τρέχοντος επιπέδου, συνεχίζεται στο επόμενο, πιο χαμηλό, επίπεδο • Η επεξεργασία του επόμενου, πιο χαμηλού, επιπέδου εξετάζει τα υπόλοιπα σχετικά κελιά • Η διαδικασία αυτή επαναλαμβάνεται μέχρι να φτάσουμε σε χαμηλότατο επίπεδο

  15. Πλεονεκτήματα και Μειονεκτήματα του STING • Πλεονεκτήματα • Πολύ αποδοτικός • Εύκολο να παραλληλοποιηθεί • Η υπολογιστική πολυπλοκότητα είναι O(k) όπου k είναι το πλήθος των grid cells του χαμηλότατου επιπέδου. Συνήθως k << N, όπου N είναι το πλήθος των εγγραφών • Μειονεκτήματα • Όλα τα όρια των συστάδων είναι είτε οριζόντια είτε κάθετα (π.χ. δεν επιτρέπονται διαγώνια όρια)

  16. Χωρική Κατηγοριοποίηση • Στοχεύει στη διαμέριση συνόλων χωρικών αντικειμένων • Μπορεί να γίνει κατηγοριοποίηση με χρήση • μη χωρικών ή/και • χωρικών γνωρισμάτων • Τεχνικές γενίκευσης και προοδευτικής βελτίωσης μπορούν να χρησιμοποιηθούν

  17. Παράδειγμα Χωρικής Κατηγοριοποίησης Ανάλυση paper: “An efficient two-step method for classification of spatial data”, Koperski et al. 1998. Κατασκευή ενός δένδρου απόφασης για την κατηγοριοποίηση χωρικών αντικειμένων Ο σκοπός είναι να κατασκευαστεί ένα δένδρο απόφασης για την κατηγοριοποίηση των πέντε αντικειμένων Oi, όπως εμπορικά κέντρα, τα οποία ανήκουν σε 2 κλάσεις Υ και Ν οι οποίες καθορίζονται από το γνώρισμα high_profitπου παίρνει τις τιμές “yes” και “no”. Τα αντικείμενα Oi χαρακτηρίζονται από μη-χωρικά γνωρίσματα (Table 1)και χωρικά γνωρίσματα ή κατηγορήματα (Table 2)

  18. Παράδειγμα Χωρικής Κατηγοριοποίησης • Χωρικά κατηγορήματα όπως close_toμπορούν να χρησιμοποιηθούν για την κατασκευή του δένδρου απόφασης • Η περιγραφή των κατηγορημάτων πρέπει να γενικευθεί πριν εφαρμοστούν για την κατασκευή του δένδρου απόφασης • Στη συνέχεια, ένας αλγόριθμος δένδρου απόφασης επιλέγεται και τροποποιείται κατάλληλα για την ανάλυση των χωρικών δεδομένων • Επιλέχθηκε το δένδρο απόφασης που προτείνεται στην εργασία W.W.Cohen, “Learning Trees and Rules with Set-valued Features”,Proc. Of 13th National Conference on Artificial Intelligence (AAAI), Portland, OR, 1996

  19. Παράδειγμα Χωρικής Κατηγοριοποίησης Τα γενικευμένα κατηγορήματα φαίνονται στον ακόλουθο πίνακα: Οι συναθροιστικές τιμές για τις περιοχές κοντά στα χωρικά αντικείμενα παίζουν σημαντικό ρόλο στην ανάλυση των χωρικών αντικειμένων. Για τον χειρισμό των συναθροιστικών τιμών των μη-χωρικών αντικειμένων σε θεματικούς χάρτες, μπορούμε να υπολογίσουμε το άθροισμα (ή το σταθμισμένο άθροισμα) των τιμών των μπλοκ που τέμνονται από τα αντικείμενα. Οι συναθροιστικές τιμές για τα 5 χωρικά αντικείμενα φαίνονται στον ακόλουθο πίνακα:

  20. Παράδειγμα Χωρικής Κατηγοριοποίησης Για κάθε κατηγοριοποιημένο αντικείμενο, ένα σύνολο από γενικευμένα κατηγορήματα (βλ. Table 3)αποθηκεύεται. Για κάθε κατηγόρημα P από τον πίνακα, βρίσκουμε το p1, π.χ. το πλήθος των αντικειμένων που ανήκουν στην κλάση Υ και ικανοποιούν το κατηγόρημα P και το n1, π.χ. το πλήθος των αντικειμένων που ανήκουν στην κλάση N και ικανοποιούν το κατηγόρημα P Επίσης, οι αντίστοιχοι υπολογισμοί πρέπει να γίνουν για την άρνηση του κατηγορήματος P, δηλαδή να βρούμε το p2, π.χ. το πλήθος των αντικειμένων που ανήκουν στην κλάση Υ και δεν ικανοποιούν το κατηγόρημα P και το n2, π.χ. το πλήθος των αντικειμένων που ανήκουν στην κλάση N και δεν ικανοποιούν το κατηγόρημα P Ο ψευδοκώδικας του αλγορίθμου για την κατασκευή του δένδρου απόφασης ακολουθεί:

  21. Παράδειγμα Χωρικής Κατηγοριοποίησης Με βάση τα αντικείμενα του συνόλου δεδομένων που πλέον έχουν γενικευμένα κατηγορήματα, κατασκευάζεται το δένδρο απόφασης. Αλγόριθμος δένδρου απόφασης

  22. Αρχιτεκτονικές GIS • 1η εναλλακτική: • Δύοβάσεις δεδομένων : μίαχωρική και μια θεματική(σχεσιακή) • Αρκετά διαδεδομένη (ArcGIS, MapInfo,…) • 2η εναλλακτική: • Ένα εκτεταμένο αντικειμενοστραφές ΣΔΒΔ (object-relationalDBMS) φιλοξενεί και διαχειρίζεται χωρικά και θεματικά δεδομένα π.χ. Oracle Spatial Cartridge,Informix Spatial Datablade, Microsoft SpatialWare

  23. Υποστήριξη Spatial Data Types σε DBMS • Παραδοσιακά σχεσιακά DBMS – Υποστηρίζουν απλούς τύπους δεδομένων, π.χ. number, varchar[], date – Υποστήριξη χωρικών δεδομένων μπορεί να γίνει απλοϊκά • π.χ. ένα σημείο ως δύο αριθμοί, μια περιοχή ως ένα πολύγωνο • Πέρα από τα σχεσιακά DBMS • Object oriented (OO) DBMS • Υποστηρίζουν abstractdatatypes (ADT’s) που ορίζονται από το χρήστη • Οπότε είναι εφικτή η προσθήκη χωρικών τύπων δεδομένων (π.χ. polygon)

  24. 1 2 3 4 5 6 7 8 9 10 11 12 Εφαρμογή Χωρικής Κατηγοριοποίησης σε Ιατρικές Εικόνες Ένα δίκτυο αγωγών στο μαστό: (a) γαλακτόγραμμα με a contrast-enhanced δίκτυο αγωγών, (b) μέρος του γαλακτογράμματος που δείχνει μεγαλύτερο το δίκτυο αγωγών, (c) το δίκτυο (a) (b) (c) Prufer {1 2 2 6 6 6 1 1 4 4 4 } • Προεπεξεργασία (προσδιορισμός ορίων χωρικών περιοχών, σκελετοποίηση, κανονικοποίηση (ισόμορφα δένδρα) • Labeling και αναπαράσταση δέντρων με σειρές χαρακτήρων – κωδικοποίηση Prüfer [ V. Megalooikonomou, D. Kontos, J. Danglemaier, A. Javadi, P. A. Bakic, A.D.A. Maidment, Proceedings of the SPIE Conference on Medical Imaging, 2006.]

  25. CosSim(dj, q) = Ποσοτικός ΧαρακτηρισμόςΔενδροειδών δομών και Ταξινόμηση • … αναπαράσταση δέντρων με σειρές χαρακτήρων • Χρήση τεχνικών tf-idf εξόρυξης γνώσης από κείμενα για ανάθεση βάρους σπουδαιότητας σε κάθε όρο- label • Toβάρoς wij του όρου i στη σειρά jπροσδιορίζεται ως εξής: wij = tfijidfi = tfijlog2 (N/ dfi) όπουfijείναι η συχνότητα εμφάνισης του όρου iστη σειρά j, tfij = fij / max{fij} dfi = αριθμός των σειρών που περιλαμβάνουν τον όρο i, idfi = αντίστροφο της dfi, = log2 (N/ dfi) και N:ο συνολικός αριθμός σειρών • H κάθε σειρά αναπαρίστανται ως ένα t-dimensional διάνυσμα: dj = (w1j, w2j, …,wtj), όπουt = |vocabulary|=διάσταση • Δύο σειρές είναι παρεμφερείς με βάση το cosine similarity measure των διανυσμάτων που υπολογίζεται ως εξής:

  26. Ποσοτικός ΧαρακτηρισμόςΔενδροειδών δομών και Ταξινόμηση • Similarity searches: • Υπολογίζουμε το pairwise cosine distance matrix για όλα τα tf-idf διανύσματα. • Χρησιμοποιούμε κάθε δένδρο (δηλ.tf-idf διάνυσμα) σαν query και βρίσκουμε τα kπιο όμοια δέντρα με βάση το cosine distance matrix. • Precision: το ποσοστό των σχετικών δένδρων (relevant trees) μεταξύ αυτών που βρέθηκαν– μέσος όρος για όλα τα similarity queries που κάναμε (σχετικά: τα δένδρα που ανήκουν στην ίδια ομάδα με το query tree (NF vs. RF)).

  27. Τέλος παρουσίασης…

More Related