Εξόρυξη Χωρικών Δεδομένων
Download
1 / 40

Εξόρυξη Χωρικών Δεδομένων - PowerPoint PPT Presentation


  • 135 Views
  • Uploaded on

Εξόρυξη Χωρικών Δεδομένων. Βασίλειος Μεγαλοοικονόμου, Χρήστος Μακρής (βασισμένο σε σημειώσεις της Μ. Dunham ). Θεματολογία Εξόρυξης Χωρικών Δεδομένων. Στόχος : Μια εισαγωγή σε μερικές τεχνικές εξόρυξης χωρικών δεδομένων Εισαγωγή Σύνοψη Χωρικών Δεδομένων

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Εξόρυξη Χωρικών Δεδομένων' - alta


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

Εξόρυξη Χωρικών Δεδομένων

Βασίλειος Μεγαλοοικονόμου, Χρήστος Μακρής

(βασισμένο σε σημειώσεις της Μ. Dunham)


Θεματολογία Εξόρυξης Χωρικών Δεδομένων

Στόχος: Μια εισαγωγή σε μερικές τεχνικές εξόρυξης χωρικών δεδομένων

  • Εισαγωγή

  • Σύνοψη Χωρικών Δεδομένων

  • Βασικές Αρχές Εξόρυξης Χωρικών Δεδομένων

  • Γενίκευση / Εξειδίκευση

  • Χωρικοί Κανόνες

  • Χωρική Κατηγοριοποίηση

  • Χωρική Συσταδοποίηση


Spatial object
Χωρικό Αντικείμενο ( ΔεδομένωνSpatial Object)

  • Περιέχει τόσο χωρικά όσο και μη χωρικά χαρακτηριστικά.

  • Πρέπει να έχει χαρακτηριστικά προσδιορισμού της θέσης όπως:

    • Γεωγραφικό Πλάτος/Γεωγραφικό Μήκος

    • Ταχυδρομικός κώδικας

    • Διεύθυνση, οδός, κλπ

  • Το χωρικό αντικείμενο μπορεί να ανακτάται χρησιμοποιώντας χωρικά ή/και μη χωρικά χαρακτηριστικά.


Εφορμογές Εξόρυξης Χωρικών Δεδομένων

  • Γεωλογία

  • Γεωγραφικά Πληροφορικά Συστήματα (GIS)

  • Επιστήμες Περιβάλλοντος

  • Γεωργία

  • Ιατρική

  • Ρομποτική

  • Μπορεί να περιέχει τόσο χωρικές όσο και χρονικές πτυχές


Spatial queries
Χωρικά ( ΔεδομένωνSpatial) Queries

  • Η χωρική επιλογή περιλαμβάνει λειτουργίες εξειδικευμένης σύγκρισης:

    • Κοντά

    • Βόρεια, Νότια, Ανατολικά, Δυτικά

    • Περιέχεται σε

    • Επικαλύπτεται

  • Ερώτηση περιοχής (Region (Range) Query) – βρες αντικείμενα που επικαλύπτουν μια συγκεκριμένη περιοχή

  • Ερώτηση πλησιέστερου γείτονα (Nearest Neighbor Query)– βρες αντικείμενα που είναι γειτονικά ως προς ένα γνωστό αντικείμενο

  • Σάρωση απόστασης (Distance Scan)– βρες αντικείμενα που βρίσκονται εντός συγκεκριμένης απόστασης από ένα γνωστό αντικείμενο όπου η απόσταση αυξάνει βαθμιαία


Δομές ΔεδομένωνΧωρικών Δεδομένων

  • Δομές δεδομένων ειδικά σχεδιασμένες για την αποθήκευση ή τη δεικτοδότηση χωρικών δεδομένων

  • Συχνά βασίζονται στο B-δένδροή στο Δένδρο Δυαδικής Αναζήτησης

  • Συσταδοποίηση δεδομένων στο δίσκο με βάση τη γεωγραφική τοποθεσία

  • Μπορούν να αναπαριστούν μια σύνθετη χωρική δομή τοποθετώντας το χωρικό αντικείμενο σε μια δομή συγκεκριμένου γεωγραφικού σχήματος

  • Τεχνικές:

    • Τετραδικό Δένδρο (Quad Tree)

    • R- Δένδρο

    • k-D Δένδρο


Ελάχιστο Περιβάλλον Ορθογώνιο Δεδομένων

  • Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle, MBR)

  • Το μικρότερο ορθογώνιο που περιέχει πλήρως το αντικείμενο


Παραδείγματα ΔεδομένωνΕλαχίστου Περιβάλλοντος Ορθογωνίου


Quad tree
Τετραδικό Δένδρο ( ΔεδομένωνQuad Tree)

  • Ιεραρχικός διαχωρισμός του χώρου σε τεταρτημόρια (MBRs)

  • Κάθε επίπεδο του δένδρου αναπαριστά το αντικείμενο ως σύνολο τεταρτημορίων τα οποία περιέχουν κάποιο μέρος του αντικειμένου

  • Κάθε επίπεδο είναι μια πιο ακριβή αναπαράσταση του αντικειμένου

  • Το πλήθος των επιπέδων καθορίζεται από το βαθμό της επιθυμητής ακρίβειας


Παράδειγμα ΔεδομένωνΤετραδικού Δένδρου


R- ΔεδομένωνΔένδρο

  • Όπως και στο Τετραδικό Δένδρο, η περιοχή χωρίζεται σε διαδοχικά μικρότερα ορθογώνια (MBRs).

  • Τα ορθογώνια δεν χρειάζεται να είναι του ίδιου μεγέθους ή αριθμού σε κάθε επίπεδο.

  • Τα ορθογώνια μπορεί να επικαλύπτονται.

  • Τα κελιά χαμηλότερου επιπέδου έχουν μόνο ένα αντικείμενο.

  • Αλγόριθμοι συντήρησης (maintenance) του δένδρου παρόμοιοι με τα B-δένδρα.


Παράδειγμα ΔεδομένωνR-Δένδρου


K-D ΔεδομένωνΔένδρο

  • Σχεδιασμένο για δεδομένα πολλών χαρακτηριστικών, όχι απαραίτητα χωρικά

  • Παραλλαγή του δυαδικού δένδρου αναζήτησης

  • Κάθε επίπεδο χρησιμοποιείται για τη δεικτοδότηση μίας από τις διαστάσεις του χωρικού αντικειμένου

  • Τα κελιά κατώτατου επίπεδου έχουν μόνο ένα αντικείμενο

  • Διαιρέσεις που δεν βασίζονται σε MBRs αλλά σε διαδοχικές διαιρέσεις του εύρους διαστάσεων


Παράδειγμα Δεδομένωνk-D Δένδρου


Τοπολογικές Συσχετίσεις Δεδομένων

Χωρική περιοχή:

  • Ξένη ή αμοιβαίως αποκλειόμενη (Disjoint)

  • Έχει επικάλυψη ή τέμνει(Overlaps ή Intersects)

  • Ίση

  • Καλύπτεται από ή βρίσκεται εντός ή περιέχεται σε

  • Καλύπτει ή περιέχει


Απόσταση Μεταξύ Αντικειμένων Δεδομένων

  • Euclidean

  • Manhattan

  • Επεκτάσεις:


Progressive refinement
Προοδευτική Βελτίωση Δεδομένων (Progressive Refinement)

  • Δώσε προσεγγιστικές απαντήσεις πριν από τις πιο βελτιωμένες απαντήσεις.

  • Φίλτραρε τα δεδομένα που δεν είναι μέρος της απάντησης

  • Ιεραρχική παρουσίαση των δεδομένων βασισμένη σε χωρικές σχέσεις

  • Αδρό κατηγόρημα που επαναληπτικά βελτιώνεται


Progressive refinement1
Χωρική Ιεραρχία Δεδομένων: Progressive Refinement – Προοδευτική Βελτίωση


Spatial data dominant algorithm
Spatial Data Dominant Algorithm Δεδομένων – Γενίκευση Χωρικής Τάξης


Sting
STING Δεδομένων

  • STatistical Information Grid-based

  • Ιεραρχική τεχνική για το διαχωρισμό μιας περιοχής σε ορθογώνια κελια

  • Δομή δεδομένων πλέγματος που περιέχει συνοπτικές πληροφορίες για κάθε κελί

  • Τεχνική ιεραρχικής συσταδοποίησης

  • Παρόμοιο με το τετραδικό δένδρο


Sting1
STING Δεδομένων


Sting build
STING Build ΔεδομένωνΑλγόριθμος


Sting2
STING ΔεδομένωνΑλγόριθμος


Χωρικοί Κανόνες Δεδομένων

  • Κανόνας χωρικού χαρακτηριστικού(Characteristic Rule)

    Το μέσο οικογενειακό εισόδημα στο Dallas είναι$50,000.

  • Διακρίνων Κανόνας – Κανόνας Χωρικού Διαχωρισμού (Discriminant Rule)

    Το μέσο οικογενειακό εισόδημα στο Dallas είναι $50,000, ενώ στοPlano το μέσο οικογενειακό εισόδημα είναι $75,000.

  • Κανόνας χωρικής συσχέτισης (Association Rule)

    Το μέσο οικογενειακό εισόδημα στο Dallas για οικογένειες που ζουν κοντά στην ΛίμνηWhite Rock είναι$100,000.


Κ Δεδομένωνανόνες Χωρικής Συσχέτισης

  • Είτε το πρότερο (antecedent) είτε το απότοκο (consequent)του κανόνα πρέπει να περιέχει κάποια χωρικά κατηγορήματα.

  • Αντιμετώπισε την underlying βάση δεδομένων ως σύνολο χωρικών αντικειμένων.

  • Μπορεί να δημιουργηθεί χρησιμοποιώντας ένα είδος προοδευτικής βελτίωσης


Αλγόριθμος ΔεδομένωνΔημιουργίας ΚανόνωνΧωρικών Συσχετίσεων

Παρόμοιος με τον Aprioriαλγόριθμο στον οποίο καθορίζονται συχνά «σύνολα κατηγορημάτων»


Χωρική Συσταδοποίηση Δεδομένων

  • Διαχωρισμός χωρικών αντικειμένων

  • Μπορεί να βασίζεται σε μη χωρικά ή/και χωρικά χαρακτηριστικά

  • Μπορεί να χρησιμοποιεί γενίκευση και προοδευτική βελτίωση


Επέκταση ΔεδομένωνID3 – Κατηγοριοποίηση Χωρικών Αντικειμένων

  • Neighborhood Graph (Γράφοι γειτνίασης)

    • Κόμβοι– αντικείμενα

    • Ακμές – συνδέουν γείτονες

  • Ο ορισμός της «γειτονίας» ποικίλει (απόσταση μικρότερη κάποιου κατωφλίου, ικανοποίηση μιας τοπολογικής σχέσης μεταξύ των αντικειμένων, κ.α.)

  • Ο αλγόριθμος ID3 για την κατηγοριοποίηση εξετάζει τα μη χωρικά χαρακτηριστικά όλων των αντικειμένων σε μια γειτονιά


Δένδρο ΔεδομένωνΧωρικής Απόφασης

  • Προσέγγιση παρόμοια με αυτή που χρησιμοποιήθηκε για τους χωρικούς κανόνες συσχέτισης.

  • Τα χωρικά αντικείμενα μπορούν να περιγραφούν με βάση τα γειτονικότερα ως προς αυτά αντικείμενα– (buffer(ενδιάμεση ζώνη)).

  • Περιγραφή της κλάσης με βάση τη συνάθροιση γειτονικών αντικειμένων


Αλγόριθμος ΔεδομένωνΔένδρου Χωρικής Απόφασης

Καθορίζεται οι αριθμοί των αντικειμένων που ικανοποιούν ή δεν ικανοποιούν κάθε κατηγόρημα. Έτσι υπολογίζεται το κέρδος της πληροφορίας


Χωρική Συσταδοποίηση Δεδομένων

  • Ανιχνεύει συστάδες ή ακανόνιστα σχήματα

  • Χρήση κεντροειδών και προσεγγίσεις απλής απόστασης μπορεί να μην δουλεύουν αποδοτικά.

  • Οι συστάδες μπορεί να είναι ανεξάρτητες της σειράς εισόδου.



Clarans
CLARANS ΔεδομένωνΕπεκτάσεις

  • Αφαίρεσε τις υποθέσεις κύριας μνήμης τουCLARANS.

  • Χρησιμοποίησε τεχνικές χωρικής δεικτοδότησης

  • Χρησιμοποίησε δειγματοληψία χρησιμοποιώντας τα R*-δένδρα για να ταυτοποιήσεις κεντρικά αντικείμενα.

  • Άλλαξε τους υπολογισμούς κόστους μειώνοντας το πλήθος των εξεταζόμενων αντικειμένων

    • Αντί να εξετάζεται όλη η βάση, εξετάζονται μόνο τα αντικείμενα στις συστάδες που επηρεάζονται κατά την αλλαγή ενός medoid.

  • Η ανάκτηση των αντικειμένων σε μια δοθείσα συστάδα βασίζεται στην κατασκευή ενός διαγράμματοςVoronoi


Voronoi
Voronoi Δεδομένων


Sd clarans
SD Δεδομένων(CLARANS)

  • Spatial Dominant (SD)

  • Πρώτα συσταδοποιεί τις χωρικές συνιστώσες χρησιμοποιώντας τον CLARANSκαι έπειτα εξετάζει τα μη χωρικά γνωρίσματα εντός κάθε συστάδας για να εξάγει την περιγραφή της

  • Επαναληπτικά αντικαθιστά τα κεντροειδή αλλά περιορίζει το πλήθος των ζευγαριών που αναζητούνται

  • Χρησιμοποιεί γενίκευση

  • Χρησιμοποιεί εκμάθηση για να εξάγει την περιγραφή της συστάδας


Sd clarans algorithm
SD(CLARANS) Algorithm Δεδομένων


Dbclasd
DBCLASD Δεδομένων

  • Distribution Based Clustering of LArge Spatial Databases

  • Επέκταση τουDBSCAN

  • Θεωρεί ότι τα αντικείμενα στη συστάδα είναι ομοιόμορφα κατανεμηνένα

  • Ταυτοποιεί κατανομές που ικανοποιούν περιορισμούς απόστασης μεταξύ πλησιέστερων γειτόνων.

  • Αντικείμενα προστίθενται αν η κατανομή είναι ομοιόμορφη


Dbclasd1
DBCLASD ΔεδομένωνΑλγόριθμος


Aggregate proximity
Aggregate Proximity Δεδομένων(Συναθροιστική Εγγύτητα)

  • Aggregate Proximity – μετρά πόσο κοντά είναι μια συστάδα σε ένα χαρακτηριστικό

  • Η σχέση συναθροιστικής εγγύτητας εντοπίζει τα k πιο κοντινά χαρακτηριστικά σε μια συστάδα

  • The CRH Algorithm – χρησιμοποιεί διαφορετικά σχήματα:

    • Περικλείων Κύκλος (Encompassing Circle)

    • Ισοθετικό Ορθογώνιο (IsotheticRectangle)

    • Κυρτό Περίβλημα (Convex Hull)

  • Μια προσέγγιση φιλτραρίσματος των χαρακτηριστικών που χρησιμοποιεί πρώτα τον περικλείοντα κύκλο, μετά το ισοθετικό ορθογώνιο και τέλος το κυρτό περίβλημα


CRH Δεδομένων


ad