1 / 39

Algorithms and Application for spatial data mining

Algorithms and Application for spatial data mining. Ronnie Bathoorn. Inhoud. Spatial data mining Framework Spatial clustering algorithms Spatial characterization Spatial trend detection Spatial classification. Spatial data mining: Waarom?. Handmatige interpretatie onmogelijk Door:

zia-larson
Download Presentation

Algorithms and Application for spatial data mining

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Algorithms and Application for spatial data mining Ronnie Bathoorn

  2. Inhoud • Spatial data mining • Framework • Spatial clustering algorithms • Spatial characterization • Spatial trend detection • Spatial classification

  3. Spatial data mining: Waarom? • Handmatige interpretatie onmogelijk Door: • Grote hoeveelheid data • Continue groei in de hoeveelheid data

  4. Spatial data mining: Wat? • Het vinden van • Onregelmatigheden • Regels • Patronen In spatiële databases • Voortgekomen uit KDD (Knowledge discovery in databases)

  5. Wat is een spatiële database? • Bevat objecten gekenmerkt door • Spatiele locatie / extentie • Meerdere niet-spatiele attributen

  6. Wat is KDD? The non-trivial process of discovering valid, novel, potentially usefull and ultimately understandable patterns from data - Fayyad et al. 1996

  7. Spatial data mining: Hoe? • Gebruik maken van neighbourhood van objecten • Waarde attributen buren kan invloed hebben op waarde attributen object

  8. Spatial data mining • Spatial clustering • Spatial characterization • Spatial trend detection • Spatial classification

  9. Framework voor spatial data mining Gebaseerd op: • Neighbourhood relations • Neighbourhood graphs • Neighbourhood paths

  10. Waarom een Framework? • Versnelt de ontwikkeling • Maakt algoritmes portable • Gebruik beter index structuren versnelt alle algoritmen die framework gebruiken • Integratie in comerciele DBMSen

  11. Spatial neighbourhood relations • Topologisch • Afstand • Richting • En combinaties

  12. Disjoint Overlap Equals Covers Coverd by Contains Inside Topologische relaties

  13. Distance A distance>2 B Direction B northeast A Distance en Direction B A B A

  14. Spatial neighbourhood graphs Definition • G = (N,E) Nodes N = DB Edges E subset_of N x N edge e = (n1,n2) exists iff neighbour(n1,n2) holds DB neighbour

  15. Spatial neighbourhood paths Definition • Neighbourhood path of length k is a sequence [n1,n2,…,nk] where neighbour(ni,ni+1) holds for all nodes with 1 ≤ i < k

  16. KDD en paths • Paths geven een mogelijkheid om de ruimte af te zoeken • Kunnen gebruikt worden om de zoekruimte te beperken • Beperken met filters

  17. Filters • Geven restricties op de mogelijke paden vanaf een start object Starlike Variable-Starlike Vertical-Starlike

  18. Extra neighbourhood operations • Neighbours: Graph x Object x Predicate → Sets_of_Objects • Paths: Sets_of_Objects x Int → Sets_of_Paths • Extensions: Graph x s_of_p x Int x Predicate → Sets_of_Paths

  19. DBMS ondersteuning Neighbourhood index • Maximum distance voor relaties om aantal object paren te beperken • Voor alle relatie types (topologisch, afstand, richting) worden de concrete relaties opgeslagen

  20. Neighbourhood index

  21. Spatial clustering • Groepeer objecten in clusters • Objecten in een cluster lijken zoveel mogelijk op elkaar • Objecten uit verschillende clusters verschillen zo veel mogelijk • betekenis clusters staat niet vast

  22. Spatial clustering • Density based algoritme • Voor elk punt in een cluster geldt: • Eps-neighbourhood bevat minstens een vastgesteld aantal punten • ‘density’ in dit gebied moet boven een threshold liggen

  23. Spatial clustering: GDBSCAN GDBSCAN(DB,NPred,MinWeight) • DB zijn de spatiële objecten • NPred is de neighbourhood relation • MinWeight is de ‘density’ threshold

  24. Spatial clustering: GDBSCAN • Berekent de neighbourhood van elk object • Als ‘density’ (neigbourhood) > threshold • Maak hier een cluster van • Bereken neighbourhood van alle toegevoegde objecten • Laat cluster groeien zolang ‘density’ > threshold

  25. Verdeel 5-D featurespace verkregen uit verschillende satteliet foto’s van Californië in classen Methode GDBSCAN met NPred(X,Y) = dist(X,Y) < 1.42 MinWeight(N) = cardinality(N) ≥ 20 Objecten in classen waarscheinlijk van zelfde type grond Spatial clustering: toepassing 1

  26. Detecteren van ‘influence regions’ in Economisch geografische data over Duitsland Methode Detecteer ‘influence regions’ Zoek maximale neighbourhood die lijkt op het centrale object van de cluster Vergelijk met theoretische waarde voor het vinden van afwijkingen Spatial clustering: toepassing 2

  27. Spatial characterization • Vinden van compacte beschrijving van een subset uit een database • beschrijving bestaat uit spatial association rules

  28. Spatial association rules • Beschrijven van associaties door middel van spatiële neighbourhood relaties Is_a(X,town) → close_to(X,Y) and is_a(Y,water) (80%)

  29. Spatial Apriori • Maakt gebruik van de realieve frequentie van waarden in de database ten opzichte van de subset ƒ (prop)= Freqtargets(prop) freqDB(prop) DB Card(targets) Card(DB) targets

  30. Spatial characterization Het vinden van alle eigenschappen waarvoor geldt: ƒ (prop) ≥ significance voor ten minste min_confidence objecten DB nh(subset)

  31. Vinden van spatial characterization van economische kracht van een gemeenschap Methode Vergroot de regio om de start subset Kies eigenschappen in deze regio die meest informatie bevatten Genereer spatial rules die deze regio beschrijven Spatial characterization: Toepassing

  32. Spatial trend detection • Spatial trend is gelijkmatige verandering van 1 of meer attributen wanneer je afstand neemt van startobject O • Gelijkmatigheid wordt beschreven door regressie op de attributen van objecten in een neighbourhood path

  33. Spatial trend detection: Algoritme • Lineare Regressie • Start vanuit een source object O1 • Bepaal de afstand to object O2 op een neighbourhood path vanuit O1 • Bepaal het verschil in niet-spatiële attributen tussen de 2 objecten • Er is een trend wanneer er genoeg correlatie tussen deze 2 waarden is

  34. Spatial trend detection • Detecteren globale trend • Breath-first search op all neighbourhood paths vanuit O1 • Detecteren locale trend • Depth-first search op all neighbourhood paths vanuit O1

  35. Detecteer trends in de economische welvaart van communities in Duitsland Methode Lineare regressie 0.6 < Correlatie < 0.8 op ‘gemiddelde huur’ Filter = vertical-starlike 4 < Path lengte < 7 Spatial trend detection: Toepassing

  36. Spatial Classification • Ken object toe aan classe • Mogelijke classen zijn gegeven • Toekenning gebasseerd op waarde van attributen • Waarde van attributen van buren kunnen ook van invloed zijn

  37. Spatial classification: Algoritme Decision tree algorithm • Uitbreiding op ID3 • Generalized attributes lijst met alle waardes van dit atribuut op een neighbourhood path • Lengte paden is begrenst omdat invloed van verre buren kleiner is

  38. Spatial classification: Algoritme Nearest neighbour • Nearest hit en nearest miss gebruikt om kenmerkende eigenschappen van classe te vinden • Decision tree wordt gemaakt met kenmerkende attributen • Boom gemaakt met geaggregeerde data

  39. Conclusie • Door gebruik te maken van neighbourhood graphs en paths kunnen mining algoritmen efficient uitgevoerd worden op commerciële DBMSen • Het model kan uitgebreidt worden met de tijd-dimensie om analyse op historische gegevens mogelijk te maken

More Related