slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Εξόρυξη Γνώσης Από Χωρικά Δεδομένα Αγγελική Σκούρα ( skoura@ceid.upatras.gr PowerPoint Presentation
Download Presentation
Εξόρυξη Γνώσης Από Χωρικά Δεδομένα Αγγελική Σκούρα ( skoura@ceid.upatras.gr

Loading in 2 Seconds...

play fullscreen
1 / 39

Εξόρυξη Γνώσης Από Χωρικά Δεδομένα Αγγελική Σκούρα ( skoura@ceid.upatras.gr - PowerPoint PPT Presentation


  • 80 Views
  • Uploaded on

Εξόρυξη Γνώσης Από Χωρικά Δεδομένα Αγγελική Σκούρα ( skoura@ceid.upatras.gr ) Παναγιώτης Αντωνέλλης ( adonel@ceid.upatras.gr ). Εξόρυξη Δεδομένων. Χωρικά vs. μη-χωρικά δεδομένα. Παραδείγματα μη-χωρικών δεδομένων – Ονόματα, τηλέφωνα, διευθύνσεις email, ...

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Εξόρυξη Γνώσης Από Χωρικά Δεδομένα Αγγελική Σκούρα ( skoura@ceid.upatras.gr' - adonia


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

Εξόρυξη Γνώσης

Από Χωρικά Δεδομένα

Αγγελική Σκούρα (skoura@ceid.upatras.gr)

Παναγιώτης Αντωνέλλης (adonel@ceid.upatras.gr)

slide3
Χωρικά vs. μη-χωρικά δεδομένα

Παραδείγματα μη-χωρικών δεδομένων

– Ονόματα, τηλέφωνα, διευθύνσεις email, ...

• Παραδείγματα χωρικών δεδομένων

– Δημογραφικά δεδομένα

– Μετεωρολογικά δεδομένα

– Κτηματολόγιο, δασολόγιο, κλπ.

– Ιατρικές εικόνες

slide4
Χωρικό Αντικείμενο και Χωρική Περιοχή
  • Χωρικό Αντικείμενο
    • Είναι αντικείμενο με μια χωρική συνιστώσα
    • Περιγράφεται από χωρικά και μη χωρικά γνωρίσματα
    • Σε αυτά μπορεί να περιλαμβάνεται κάποιος τύπος σχετικόςμε θέση:
      • Γεωγραφικό Μήκος και Πλάτος
      • Ταχυδρομικός Κωδικός
      • Διεύθυνση
    • Η ανάκτηση του αντικειμένου θα πρέπει να είναι δυνατή μεχρήση χωρικών ή/και μη χωρικών γνωρισμάτων
    • Χωρική Περιοχή
      • Η περιοχή που εσωκλείει τις τοποθεσίες όλων των χωρικών δεδομένων
slide5
Εξόρυξη γνώσης από χωρικά δεδομένα

Η χωρική εξόρυξη γνώσης είναι η συστηματική και ημι-αυτόματη αναζήτηση για χρήσιμα, μη-τετριμμένα πρότυπα σε μεγάλες χωρικές βάσεις δεδομένων

• Στόχοι Ανάλυσης Χωρικών Δεδομένων:

– Deductive Querying, e.g. searching, sorting, overlays

– Inductive Mining, e.g. statistics, correlation, clustering, classification..

• Παραδείγματα Εφαρμογών:

– Infer land-use classification from satellite imagery

– Identify cancer clusters and geographic factors with high correlation

– Identify crime hotspots to assign police patrols and social workers

slide6
Εφαρμογές εξόρυξης γνώσης απόχωρικά δεδομένα

Γεωλογία

Συστήματα Γεωγραφικών Πληροφοριών (GIS)

Περιβαλλοντολογική Επιστήμη

Γεωργία

Ιατρική

Ρομποτική

Οπουδήποτε συνδυάζεται η χρονική με τη χωρική διάσταση

slide7
Απόσταση μεταξύ Χωρικών Αντικειμένων
  • Σημειακά αντικείμενα
    • Ευκλείδεια, Manhattan
  • Μη σημειακά αντικείμενα
    • Κάθε χωρικό αντικείμενο θεωρείται ως μια συστάδα των σημείων εντός του
sting
STING

STatistical Information Grid-based

Χρησιμοποιεί μια ιεραρχική τεχνική για τη διαίρεση τωνχωρικών περιοχών σε ορθογώνια κελιά

Κάθε κόμβος στη δομή πλέγματος συνοψίζει την πληροφορία για τα στοιχεία εντός της

Μπορεί να θεωρηθεί ως τεχνική ιεραρχικής συσταδοποίησης

sting3
STING (Εισαγωγή)

ΟSTING χρησιμοποιείται για τη συσταδοποίηση χωρικών δεδομένων

Ο STING χρησιμοποιεί ένα ιεραρχικό πλέγμα δεδομένων το οποίο διαμερίζει τη χωρική περιοχή

Το πλεονέκτημα του STING είναι ότι επεξεργάζεται πολλά κοινά “region oriented” ερωτήματα πάνω σε ένα σύνολο σημείων αποδοτικά

Ο στόχος είναι η συσταδοποίηση (ως προς την θέση) των εγγραφών που υπάρχουν σε ένα πίνακα

Η τοποθέτηση μιας εγγραφής σε ένα grid cell καθορίζεται πλήρως από τη φυσική του θέση

grid cell
Ιεραρχική Δομή κάθεGrid Cell

Η χωρική περιοχή χωρίζεται σε τετραγωνικά cells(χρησιμοποιώντας latitude και longitude)

Κάθε κελί σχηματίζει μια ιεραρχική δομή

Αυτό σημαίνει ότι κάθε κελί στο υψηλότερο επίπεδο διαχωρίζεται σε 4 μικρότερα κελιά στο χαμηλότερο επίπεδο

Με άλλα λόγια, κάθε κελί στοi-οστό επίπεδο (εκτός από τα φύλλα) έχει 4 παιδία στοi+1 επίπεδο

Η ένωση των 4 παιδιών-cells θα επιστρέψει το γονικό κελί του προηγούμενου επιπέδου

slide16

Ιεραρχική Δομή κάθε Grid Cell

  • Το μέγεθος των cells του επιπέδου των φύλλων και το πλήθος των επιπέδων εξαρτάται από το βαθμό «κοκοποίησης»(granularity) που επιθυμεί ο χρήστης
  • Γιατί χρειάζεται η ιεραρχική δομή των κελιών?
    • Τα χρειαζόμαστε για να παραχθεί μια καλύτερη granularity, ή υψηλότερη ανάλυση
sting4
Η Ιεραρχική Δομή της Συσταδοποίησης Sting
slide18
Στατιστικοί Παράμετροι
  • Για κάθε κελί σε κάθε επίπεδο, έχουμε γνωρίσματα εξαρτώμενα και ανεξάρτητα των παραμέτρων
    • Attribute Independent Parameter:
      • Count : number of records in this cell
    • Attribute Dependent Parameter:
      • We are assuming that our attribute values are real numbers
slide19
Στατιστικές Παράμετροι
  • Για κάθεγνώρισμα κάθε κελιού, αποθηκεύονται οι ακόλουθες παράμετροι:
    • M  mean of all values of each attribute in this cell
    • S  Standard Deviation of all values of each attribute in this cell
    • Min  The minimum value for each attribute in this cell
    • Max  The maximum value for each attribute in this cell
    • Distribution  The type of distribution that the attribute value in this cell follows. (e.g. normal, exponential, etc.) None is assigned to “Distribution” if the distribution is unknown
slide20
Αποθήκευση Στατιστικών Παραμέτρων

Η στατιστική πληροφορία σχετικά με τα γνωρίσματα σε κάθεgrid cell, για κάθε επίπεδο προ-υπολογίζονται και αποθηκεύονται χειρωνακτικά

Οι στατιστικές παράμετροι για τα κελιά του χαμηλότατου επιπέδου υπολογίζονται κατευθείαν από τις τιμές που υπάρχουν στον πίνακα

Οι στατιστικές παράμετροι για τα κελιά όλων των άλλων επιπέδων υπολογίζονται από τα αντίστοιχα κελιά των παιδιών του χαμηλότερου επιπέδου

slide21
Επεξεργασία Ερωτημάτων

Ο STING μπορεί να απαντήσει αρκετά ερωτήματα, (ιδίως χωρικά ερωτήματα) αποδοτικά, διότι δεν χρειάζεται να αποκτήσουμε πρόσβαση στην πλήρη βάση δεδομένων

Πως επεξεργάζονται τα ερωτήματα?

Χρησιμοποιούμε μια top-down προσέγγιση

Ξεκινάμε από ένα προ-επιλεγμένο επίπεδο

Το προ-επιλεγμένο επίπεδο δεν είναι απαραίτητα το πιο ψηλό επίπεδο

Για κάθε κελί του τρέχοντος επιπέδου, υπολογίζεται το confidence interval (ή εύρος πιθανότητας) που αντανακλά τα σχετικά κελία με το δεδομένο ερώτημα

slide22
Επεξεργασία Ερωτημάτων

Το confidence interval υπολογίζεται χρησιμοποιώντας τις στατιστικές παραμέτρους κάθε κελιού

Απομάκρυνση μη σχετικών κελιών από επιπλέον επεξεργασία

Όταν ολοκληρωθεί η επεξεργασία του τρέχοντος επιπέδου, συνέχισε στο επόμενο, πιο χαμηλό, επίπεδο

Η επεξεργασία του επόμενου, πιο χαμηλού, επιπέδου εξετάζει τα υπόλοιπα σχετικά κελιά

Η διαδικασία αυτή επαναλαμβάνεται μέχρι να φτάσουμε σε χαμηλότατο επίπεδο

slide23
Διάφορα Επίπεδα Grid κατά την επεξεργασία ερωτήματος
slide24
Απλά Παραδείγματα Ερωτημάτων

Υπόθεσε ότι η χωρική περιοχή είναι ένας χάρτης των περιοχώνΡίου, Αγυιάς και Αγ. Σοφίας

Οι εγγραφές μας αναπαριστούν διαμερίσματα που βρίσκονται στην παραπάνω χωρική περιοχή

Ερώτημα: “ Βρες όλα τα διαμερίσματα που είναι προς ενοικίαση κοντά (10 χιλιόμετρα) στοΠανεπιστήμιο Πατρών και που το εύρος ενοικίου κυμαίνεται από €400 έως €600 ”

sting5
Πλεονεκτήματα και Μειονεκτήματα τουSTING
  • Πλεονεκτήματα
    • Πολύ αποδοτικός
    • Η υπολογιστική πολυπλοκότητα είναι O(k) όπουk είναι το πλήθος των grid cells του χαμηλότατου επιπέδου. Συνήθως

k << N, όπου N είναι το πλήθος των εγγραφών

    • Ο STING είναι μια προσέγγιση ανεξάρτητη του ερωτήματος, αφού η στατιστική πληροφορία υπάρχει ανεξάρτητα από τα ερωτήματα
  • Μειονεκτήματα
    • Όλα τα όρια των συστάδων είναι είτε οριζόντια είτε κάθετα. Δεν υπάρχουν διαγώνια
slide26
Χωρική Κατηγοριοποίηση

Στοχεύει στη διαμέριση συνόλων χωρικών αντικειμένων

Μπορεί να γίνει κατηγοριοποίηση με χρήση μη χωρικών ή/και χωρικών γνωρισμάτων

Τεχνικές γενίκευσης και προοδευτικής βελτίωσης μπορούν να χρησιμοποιηθούν

slide27
Επέκταση του ID3
  • Γράφος Γειτνίασης
    • Κόμβοι – αντικείμενα
    • Ακμές – συνδέουν γείτονες
  • Ο ορισμός του «γείτονα» ποικίλει
    • Μπορεί να οριστεί βάσει μιας μετρικής απόστασης μεταξύ των χωρικών αντικειμένων
  • Ο ID3 για τους σκοπούς κατηγοριοποίησης υπολογίζει όχι μόνο τα μη χωρικά γνωρίσματα του αντικείμενου-στόχου αλλά και των γειτονικών αντικειμένων
slide28
Δένδρο Χωρικής Απόφασης

Παρόμοια προσέγγιση με αυτή που χρησιμοποιείται στους κανόνες χωρικών συσχετίσεων

Η ιδέα βασίζεται στο ότι τα χωρικά αντικείμενα μπορούν να περιγραφούν βάση των αντικειμένων που είναι κοντά σε αυτά – Ενδιάμεση Ζώνη (buffer)

Περιγραφή των κλάσεων βασισμένη σε μια συνάθροιση των πιο σχετικών κατηγορημάτων για κοντινά αντικείμενα

slide30
Χωρική Συσταδοποίηση

Εντοπισμός συστάδων από διαφορετικά σχήματα

Ένας αλγόριθμος που δουλεύει χρησιμοποιώντας κέντρα βάρους και απλές μετρήσεις απόστασης πιθανόν δεν θα είναι σε θέση να αναγνωρίζει ασυνήθιστα σχήματα

Οι συστάδες πρέπει να προκύπτουν ανεξάρτητα της σειράς με την οποία εξετάστηκαν τα σημεία στο χώρο

dbclasd
DBCLASD

Επέκταση του αλγορίθμου DBSCAN, Distribution Based Clustering of LArge Spatial Databases (συσταδοποίηση μεγάλων βάσεων χωρικών δεδομένων βασισμένη σε κατανομές)

Υποθέτει ότι τα στοιχεία εντός μιας συστάδας είναι ομοιόμορφα κατανεμημένα

Επιχειρεί να προσδιορίσει την κατανομή που ικανοποιείται από τις αποστάσεις μεταξύ πλησιέστερων γειτόνων

Στοιχεία προστίθενται στη συστάδα, όσο το σύνολο των πλησιέστερων – βάσει της απόστασης – γειτόνων, ικανοποιεί την υπόθεση της ομοιόμορφης κατανομής

slide33
Αρχιτεκτονικές GIS

1η εναλλακτική:

Δύοβάσεις δεδομένων :

μίαχωρική και μια θεματική(σχεσιακή)

Αρκετά διαδεδομένη

(ArcGIS, MapInfo,…)

slide34
Αρχιτεκτονικές GIS

2η εναλλακτική:

Ένα εκτεταμένο αντικειμενοστραφές ΣΔΒΔ (objectrelationalDBMS) φιλοξενεί και διαχειρίζεται χωρικά και θεματικά δεδομένα

– π.χ. Oracle Spatial Cartridge,

Informix Spatial Datablade,

Microsoft SpatialWare

spatial data types dbms
Υποστήριξη Spatial Data Types σε DBMS
  • Παραδοσιακά σχεσιακά DBMS

– Υποστηρίζουν απλούς τύπους δεδομένων, π.χ. number, varchar[], date

– Υποστήριξη χωρικών δεδομένων μπορεί να γίνει απλοϊκά

      • Π.χ. ένα σημείο ως δύο αριθμοί, ένα πολύγωνο ως ...
      • Πέρα από τα σχεσιακά DBMS
    • Object oriented (OO) vs. Object relational (OR) DBMS
    • Υποστηρίζουν abstractdatatypes (ADT’s) που ορίζονται από το χρήστη
      • Οπότε είναι εφικτή η προσθήκη χωρικών τύπων δεδομένων (π.χ. polygon)
slide36

1

2

3

4

5

6

7

8

9

10

11

12

Εφαρμογή Χωρικής Κατηγοριοποίησης σε ιατρικές εικόνες

Ένα δίκτυο αγωγών στο μαστό: (a) γαλακτόγραμμα με a contrast-enhanced δίκτυο αγωγών, (b) μέρος του γαλακτογράμματος που δείχνει μεγαλύτερο το δίκτυο αγωγών, (c) το δίκτυο

(a) (b) (c)

Prufer

{1 2 2 6 6 6 1 1 4 4 4 }

  • Προεπεξεργασία (προσδιορισμός ορίων χωρικών περιοχών, σκελετοποίηση, κανονικοποίηση (ισόμορφα δένδρα)
  • Labeling και αναπαράσταση δέντρων με σειρές χαρακτήρων – κωδικοποίηση Prüfer

[ V. Megalooikonomou, D. Kontos, J. Danglemaier, A. Javadi, P. A. Bakic, A.D.A. Maidment, Proceedings of the SPIE Conference on Medical Imaging, 2006.]

slide37

CosSim(dj, q) =

Ποσοτικός ΧαρακτηρισμόςΔενδροειδών δομών και Ταξινόμηση
  • … αναπαράσταση δέντρων με σειρές χαρακτήρων
  • Χρήση τεχνικών tf-idf εξόρυξης γνώσης από κείμενα για ανάθεση βάρους σπουδαιότητας σε κάθε όρο- label
    • To βάρoς wij του όρου i στη σειρά jπροσδιορίζεται ως εξής:

wij = tfij idfi = tfijlog2 (N/ dfi)

όπουfijείναι η συχνότητα εμφάνισης του όρου iστη σειρά j,

tfij = fij / max{fij}

dfi = αριθμός των σειρών που περιλαμβάνουν τον όρο i,

idfi = αντίστροφο της dfi, = log2 (N/ dfi) και

N:ο συνολικός αριθμός σειρών

    • H κάθε σειρά αναπαρίστανται ως ένα t-dimensional διάνυσμα:

dj = (w1j, w2j, …,wtj), όπουt = |vocabulary|=διάσταση

    • Δύο σειρές είναι παρεμφερείς με βάση το cosine similarity measure των διανυσμάτων που υπολογίζεται ως εξής:
slide38
Ποσοτικός ΧαρακτηρισμόςΔενδροειδών δομών και Ταξινόμηση
  • Similarity searches:
    • Υπολογίζουμε το pairwise cosine distance matrix για όλα τα tf-idf διανύσματα.
    • Χρησιμοποιούμε κάθε δένδρο (δηλ.tf-idf διάνυσμα) σαν query και βρίσκουμε τα kπιο όμοια δέντρα με βάση το cosine distance matrix.
    • Precision: το ποσοστό των σχετικών δένδρων (relevant trees) μεταξύ αυτών που βρέθηκαν– μέσος όρος για όλα τα similarity queries που κάναμε (σχετικά: τα δένδρα που ανήκουν στην ίδια ομάδα με το query tree (NF vs. RF)).