luento 2 spatiaalimallintaminen kulttuuri ja aluemaantieteess
Download
Skip this Video
Download Presentation
Luento 2: Spatiaalimallintaminen kulttuuri- ja aluemaantieteessä

Loading in 2 Seconds...

play fullscreen
1 / 79

Luento 2: Spatiaalimallintaminen kulttuuri- ja aluemaantieteessä - PowerPoint PPT Presentation


  • 194 Views
  • Uploaded on

Luento 2: Spatiaalimallintaminen kulttuuri- ja aluemaantieteessä. Moranin I - indeksi. Luentomateriaali: Mika Siljander ja Jani Vuolteenaho. Esim. ”Vanhukset Helsingissä” - spatiaalianalyysejä. Johdatusta aiheeseen.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Luento 2: Spatiaalimallintaminen kulttuuri- ja aluemaantieteessä' - keefe


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
luento 2 spatiaalimallintaminen kulttuuri ja aluemaantieteess

Luento 2: Spatiaalimallintaminen kulttuuri- ja aluemaantieteessä

MoraninI - indeksi

Luentomateriaali: Mika Siljander ja Jani Vuolteenaho

johdatusta aiheeseen
Johdatusta aiheeseen
  • - geoinformatiikan yhteydessä hyödynnetään erityyppisiä kvantitatiivisia tutkimusmenetelmiä
  • - spatiaalianalyysi (spatial analysis, SA) = yleisnimitys paikkaan sidotuille aineistoille tarkoitetuista kvantitatiivisista tutkimusmenetelmistä
  • -muuttujakeskeisyys (kvantitatiiviselle tutkimukselle tyypillinen tutkimusote); lähtökohtana haluttua ilmiötä mittaavat muuttujat tietyssä spatiaalisessa havaintojoukossa
  • maantieteessä SA-termiä käytetty 1950- ja 1960-lukujen ”kvantitatiivisesta vallankumouksesta” alkaen
luennon tavoite
Luennon tavoite:
  • - antaa yleiskuva ja esimerkkejä yleisesti hyödynnetyistä spatiaalianalyysin menetelmistä yhteiskunta- ja kaupunkimaantieteessä (samoja menetelmiä hyödynnetään myös mm. luonnonmaantieteessä)
  • Esitellä yleisesti:

- Eksploratiiviset (kuvailevat menetelmät)

- spatiaalianalyysi menetelmät

m ritelmi ja termist
Määritelmiä ja termistöä
  • Analyysi = erittely, jäsentäminen, uuden merkityksellisen tiedon tuottaminen
  • - analyyttiset Miksi?- jaMitä jos?- kysymykset
  •  vrt. deskriptiiviset Mitä?- ja Missä? –kysymykset
  • - tarkka rajanveto usein vaikeaa
  • Spatiaalinen analyysi = tilaa koskeva analyysi
er s spatiaalianalyysiin m ritelmist
Eräs spatiaalianalyysiin määritelmistä
  • Spatial analysis is in many ways the crux of GIS, because it includes all of the transformations, manipulations, and methods that can be applied to geographic data to add value to them, to support decisions, and to reveal patterns and anomalies that are not immediately obvious – in other words, spatial analysis is the process by which we turn raw data into useful information. [Longley et al. 2001]
tieteenalan k kulma
Spatiaalianalyysillä: -suhteellisen pitkät perinteet maantieteessä

osa paikkatietoanalyyseista perinteisiä maantieteessä käytettyjä menetelmiä, 1950- ja 1960-lukujen ”kvantitatiivisen vallankumouksen ajoilta” (esim. klassinen lähimmän naapurin menetelmä pisteaineistolle; Nearest neighbour analysis)

Tieteenalanäkökulma 
my s muilla tieteenaloilla harjoitetaan spatiaalianalyysia
Myös muilla tieteenaloilla harjoitetaan spatiaalianalyysia
  • aluetaloustieteen teoriat (A. Weber, Christaller, Lösch)
  • operaatiotutkimus ja verkostot (graph theory)
  • spatiaalinen tilastotiede / geostatistiikka
  • Geologia (Kriging interpolointi)
slide10

Järjestelmänäkökulma

  • geoinformatiikan menetelmät tutkimusprosessin eri vaiheissa:
  • paikkatietojärjestelmien toiminnallinen määrittely
  • 1. tiedon tallennus
  • 2. tiedon ylläpito ja hallinta
  • 3. tietoon kohdistuvat kyselyt
  • 4. tiedon analyysi
  • 5. tiedon visualisointi
  • 6. päätöksenteon tuki
  • - rajanveto varsinaisen spatiaalianalyysin sekä esim. kyselyjen ja overlay-menetelmien välillä on usein hankalaa
1 geometristen kohdetyyppien mukaan
1. Geometristen kohdetyyppien mukaan:
  • piste-, viiva-, alue- ja pinta-aineistoille soveltuvat analyysimenetelmät
slide13

2. analyysin kohdistuvuuden mukaan:

  • Esim. jako rasterikarttataso operaatioiden mukaan - (Tomlin 1990)
  • globaalit operaatiot (global)- esim. trendipinnan muodostaminen havaintopistejoukon kaikkia kohteita kuvaavan polynomifunktion avulla
  • vyöhykeoperaatiot (zonal)- esim. keskiarvojen laskeminen taajamille ja ei-taajamille tai esim. keskikorkeuden laskeminen eri maankäyttötyypeille
  • naapurusto-operaatiot (focal)- esim. korkeusmallin keskiarvoistus operaatio - FOCALMEAN(DEM)
  • lokaalit operaatiot (local)- esim. Sini-muunnos (alkuperäiselle pikselin arvolle tehdään Sin-operaatio pikseli pikseliltä)
slide14

3. matemattisen lähestymistavan mukaan:

  • Jako (Haining 2003) mukaan
  • karttamallintaminen - karttatasot muuttujina
  • matemaattinen mallinnus - esim. jokisysteemien hydrologinen mallinnus, sijaintioptimoinnit
  • spatiaalinen tilastoanalyysi - tilastomenetelmiä jotka huomioivat spatiaalisen datan erityispiirteet
slide15

4. Menetelmän teknisen/matemaattisen vaativuuden mukaan:

  • Jako (Longley et al. 2001) mukaan
  • ominaisuus- ja sijaintitietokyselyt
  • geometrialaskelmat
  • muunnosoperaatiot
  • kuvailevat tunnusluvut ja diagrammit
  • Optimoinnit (verkosto-optimointi)
  • hypoteesien testaus

Yksinkertainen, helppo

Monimutkainen, vaikea

slide17

- Spatiaalianalyysissa voidaan erottaa 3 menetelmäkokonaisuutta (pätee myös yleisemmin kvantitatiiviseen tutkimukseen)

  • Eksploratiiviset eli kuvailevat menetelmät
  • Tilastollinen päättely ja monimuuttujamenetelmät
  • Matemaattinen mallintaminen (ei käsitellä tässä yhteydessä)
eksploratiivinen kuvaileva spatiaalianalyysi
Eksploratiivinen (kuvaileva) spatiaalianalyysi
  • ESDA = Explorative Spatial Data Analysis
  • explore = tutkia, tunnustella, etsiä (jotakin ei-tunnettua)
  • esim. paikkatietokyselyt tutkimuksen alkuvaiheessa eksploratiivista tutkimista tyypillisimmillään
  • tilastotieteen näkökulmasta ymmärretään tutkimuksen ”esivaiheeksi”
eksploratiivinen kuvaileva spatiaalianalyysi1
Eksploratiivinen (kuvaileva) spatiaalianalyysi
  • tavoitteena tiivistää paikkaan sidottua informaatiota helpommin tulkittavaan muotoon
  • kvantitatiivinen kuvailu, descriptive statistics
  • voidaan selvittää mm. vaihteluvälejä, ääriarvoja, keski- ja hajontalukuja, jakauman muotoa (normaalisuus, vinous, ym.), muuttujien välisiä riippuvuuksia
eksploratiivinen kuvaileva spatiaalianalyysi2
Eksploratiivinen (kuvaileva) spatiaalianalyysi
  • alueellisten jakaumien tutkiminen ollut perinteisesti maantieteen ”menetelmällistä ydintä”
  • yleensä tutkimusasetelmana: havaintoyksiköt spatiaalisia (esim. maakunnat, kaupunginosat, rakennukset) => tarkastellaan näiden välisiä eroja ja yhtäläisyyksiä eri ominaisuustietojen suhteen
  • toisaalta voidaan tutkia myös spatiaalisia muuttujia (etäisyys, läheisyys, ryhmittyminen, jne.)
eksploratiivinen kuvaileva spatiaalianalyysi3
Eksploratiivinen (kuvaileva) spatiaalianalyysi
  • eksploratiiviset menetelmät voidaan jaotella esittämistavan mukaan seuraavasti:
  • taulukot ja diagrammit
  • tunnusluvut
  • teemakartografiset esittämistavat
taulukot
Taulukot
  • - 1-, 2- tai useampiulotteisista jakaumia esittävät frevenssitaulukot (”suorat jakaumat”) ja ristiintaulukot
  • - taulukkomuodossa voidaan myös keski- ja hajontalukuja, laadullisia kuvauksia, jne.
  • - esim. maantieteessä erityisesti aluevertailut
diagrammit
Diagrammit

Liikeyritysten määrän väheneminen etäisyyden funktiona CBD:stä

diagrammit1
Diagrammit

Spatial autocorrelation: Moran’s I correlogram.

tunnusluvut
Tunnusluvut
  • - klassiset tilastotunnusluvut (populaatiota tai otosta kuvaavat) käyttökelpoisia esim. alueellisissa vertailuissa
  • pyritään tiivistämään tietoa jonkin määrällisen muuttujan jakaumasta (keski- ja hajontaluvut) tai muuttujien yhteisvaihtelusta (esim. korrelaatiokertoimet)
  • muuttujan mitta-asteikon huomioiminen
tilastollisia perustunnuslukuja eri mitta asteikoille
Tilastollisia perustunnuslukuja eri mitta-asteikoille

(Spearmanin korrelaatiokerroin)

(Pearsonin korrelaatiokerroin)

Kts. esim. http://www.fsd.uta.fi/menetelmaopetus/intro.html#intro

slide29
Spatiaalianalyysi esimerkkejä Tilastokeskuksen 250m ruututietokanta asukkaat-aineistolle - ”Vanhukset Helsingissä muuttuja”
l himm n naapurin indeksi nearest neighbor index
Lähimmän naapurin indeksi - nearest neighbor index
  • (maantieteen ”klassista” menetelmäarsenaalia) - suhdeluku, joka kertoo ovatko aineiston havaintopisteet ryhmittyneet tiettyyn spatiaaliseen järjestykseen: jakaantuneet satunnaisesti/karttavat toisiaan?
  • - lasketaan jakamalla aineiston keskimääräinen etäisyys lähimpään naapuripisteeseen satunnaisesti ryhmittyneelle aineistolle lasketulla vastaavalla arvolla- ARVO: alle 1 = klusteroitumista; arvo 1 = aineisto satunnaisesti ryhmittynyt; yli 1 = havainnot hajallaan- z-arvo (ns. keskihajontapoikkeama suhteessa satunnaisesti ryhmittyneeseen ja normaalisti jakautuneeseen oletusaineistoon) kertoo, kuinka todennäköisesti aineisto on klusteroitunutta
  • - käyttökelpoinen pisteaineistoille; ottaa huomioon pelkästään sijainnin (esiintymisen)
  • - analyysin ei liity ominaisuustietoa

= 1

> 1

< 1

the average nearest neighbor distance
The Average Nearest Neighbor Distance

“The Average Nearest Neighbor Distance ArcGIS tool measures the distance between each feature centroid and its nearest neighbor\'s centroid location.

It then averages all these nearest neighbor distances.

If the average distance is less than the average for a hypothetical

random distribution, the distribution of the features being analyzed

are considered clustered. If the average distance is greater than a

hypothetical random distribution, the features are considered dispersed.

The index is expressed as the ratio of the observed distance divided

by the expected distance

(expected distance is based on a hypothetical random distribution

with the same number of features covering the same total area).”

If the index is less than 1, the pattern exhibits clustering; if the index is greater than 1, the trend is toward dispersion or competition.

arcgis average nearest neighbor arcgis toolbox spatial statistics tools
ArcGIS - Average Nearest Neighbor (ArcGIS Toolbox > Spatial Statistics Tools)

Calculates a nearest neighbor index based on the

average distance from each feature to its nearest neighboring feature.

helsingin asukkaat 250m ruutujen keskipiste ann analyysi
Helsingin asukkaat 250m ruutujen keskipiste - ANN-analyysi

Executing: AverageNearestNeighbor hkiruudut_250m.shp "Euclidean Distance" false # 0 0 0

Start Time: Mon Jan 19 13:12:59 2009

Running script AverageNearestNeighbor...

Average Nearest Neighbor Summary

  • Observed Mean Distance: 257,501302
  • Expected Mean Distance: 203,702309
  • Nearest Neighbor Ratio: 1,264106
  • Z Score: 22,909765
  • p-value: 0,000000
slide34

Sentroidi / painotettu sentroidi –

Mean Center / Weighted Mean Center

  • (maantieteen ”klassinen” menetelmä)
  • ilmaisee polygonin, viivan tai pistejoukon maantieteellisen keskipisteen tasokoordinaatistossa
  • analyyseissa enemmän käyttöarvoa tietyllä ominaistiedon muuttujalla painotetulla sentroidilla (voidaan laskea esim. suomenkielisen / ruotsinkielisen /muunkielisen väestön maantieteellinen keskipiste ja verrata näitä keskenään)
  • kun esim. tunnetaan asuinrakennuksia kuvaavien pisteiden sijaintikoordinaatit (x ja y) sekä asukkaiden lukumäärä (w) kussakin pisteessä, voidaan väestöpainopiste laskea väestömäärällä painotettujen koordinaattiarvojen keskiarvona, eli seuraavasti:
  • x = Σi wi xi / Σi wi , missä x = väestöpainopisteen x-koordinaattiy = Σi wi yi / Σi wi , missä y = väestöpainopisteen y-koordinaatti
arcgis 9 3 spatiaalinen sentroidi mean center weighted mean center spatial statistics tools
ArcGIS 9.3 – Spatiaalinen sentroidiMean Center / Weighted Mean Center (Spatial Statistics Tools)
  • violetti piste = painottamaton
  • musta piste = vanhusten lukumäärällä painotettu
slide37

Spatiaalinen (keski)hajonta

  • voidaan laskea vastaavalla tavalla keskimääräisenä etäisyytenä sentroidista
  • sovellettu mm. väestötieteessä, muuttoliiketutkimuksessa ja historiallisessa maantieteessä ajallisten muutosten tarkasteluissa
arcgis 9 3 spatiaalinen keski hajonta standard distance spatial statistics tools
ArcGIS 9.3 – Spatiaalinen (keski)hajontaStandard Distance (Spatial Statistics Tools)

Measures the degree to which features are concentrated

or dispersed around the geometric mean center

standard distance analyysi helsingiss
Standard Distance analyysi Helsingissä
  • Sininen polygoni = painottamaton
  • violetti polygoni = vanhusten lukumäärällä painotettu
standard deviational ellipse spatial statistics
Standard Deviational Ellipse (Spatial Statistics)
  • “Measuring the trend for a set of points or areas is to calculate the standard distance separately in the x and y directions. These two measures define the axes of an ellipse encompassing the distribution of features. The ellipse is referred to as the standard deviational ellipse, since the method calculates the standard deviation of the x coordinates and y coordinates from the mean center to define the axes of the ellipse. The ellipse allows you to see if the distribution of features is elongated and hence has a particular orientation. While you can get a sense of the orientation by drawing the features on a map, calculating the standard deviational ellipse makes the trend clear. You can calculate the standard deviational ellipse using either the locations of the features or using the locations influenced by an attribute value associated with the features. The latter is termed a weighted standard deviational ellipse.”
slide43
Spatiaalisen riippuvuuden tunnusluvut(spatiaalinen autokorrelaatio ja sen laskeminen ArcGIS -ohjelmistolla)
slide44

spatiaalista autokorrelaatiota määrittäessä: tarkastellaan muuttujan (ominaisuus)arvojen samankaltaisuutta etäisyyden suhteen

  • ”läheisyys lisää samankaltaisuutta” – päteekö havaintoaineistoon?
  • positiivinen ja negatiivinen spatiaalinen autokorrelaatio
  • autokorrelaation globaalit ja lokaalit (naapurusto)indeksit ilmiöiden kasautumisen tarkasteluissa
  • globaalit indeksit: kuvaavat ”tilajärjestystä” (samansuuruisten havaintoarvojen klusteroitumista tai sijainnillista heterogeenisyyttä) koko tarkasteltavalla alueella
  • lokaalit eli paikalliset indeksit: kuvaavat yksittäisten kohteiden samankaltaisuutta (klustereihin kuuluminen) tai erilaisuutta (”outlierit”) suhteessa naapureihin
slide45
Hypoteettinen esimerkki spatiaalista autokorrelaatiota kuvaavan globaalin indeksin laskemisesta rasteriaineistolle
spatiaalisen autokorrelaation laskemisesta
Spatiaalisen autokorrelaation laskemisesta:
  • - perusideana spatiaalisen autokorrelaation laskemisessa (attribuutti- ja sijaintiosasta koostuva) matriisipari, jossa kohteiden ominaisuustietojen samankaltaisuutta/eroavuutta suhteutetaan kohde kohteelta niiden läheisyyteen
  • - ominaisuustietojen osalta valittavaan indeksiin ja sen laskentatapaan vaikuttaa muuttujien mitta-asteikko (eri indeksejä)- sijainnin samankaltaisuutta kuvataan ns. painoarvomatriisissa, jossa läheisyyden määrittämisessä käytetään eri laskentamenetelmiä- laskennalliset toteuttamistavat vaihtelevat
yleisesti k ytettyj spatiaalisen autokorrelaation indeksej
Yleisesti käytettyjä spatiaalisen autokorrelaation indeksejä
  • - Moranin globaali indeksi (I): kuvaa tilajärjestystä koko aineistossa- Moranin paikallinen indeksi (I): löytää aineiston yksittäiset klusterit/outlierit  positiiviset arvot (0–1) ilmentävät samankaltaisuutta (clusters),  negatiiviset arvot (-1–0) ilmentävät läheisten havaintojen poikkeavuutta
  • - Gearyn indeksi (c) (0–2)- Getis-Ord indeksi (G, G*)
  • - jne.
moranin globaalin i indeksin laskukaava
Moranin globaalin I-indeksin laskukaava
  • Lähde: http://www.lpc.uottawa.ca/
  • publications/moransi/moran.htm
globaali indeksi koko karttatason spatiaalinen autokorrelaatio global morans i arcgis ohjelmistolla
Globaali indeksi (koko karttatason spatiaalinen autokorrelaatio)- Global Morans I ArcGIS -ohjelmistolla

Analyysi-ikkunassa oleellinen tieto:Moran I; Z-score; p-value

Huom! Analyysissä POISTA

Ruksi kohdasta ”Close the Dialog…”

slide50
ArcGIS:n ArcToolboxin työkaluja paikallisen spatiaalisen autokorrelaation laskuun – Local Morans I (Spatial Statistics Tools):
lokaali indeksi ruutujen naapuruston mukaan laskettu local morans i arcgis ohjelmistolla
Lokaali indeksi (ruutujen naapuruston mukaan laskettu): Local Morans I ArcGIS -ohjelmistolla

Syntyy uusi karttataso jossa uudet sarakkeet: Moran I; Z-score;p-value

slide52
Spatiaalisen autokorrelaation lasku (vanhukset Helsingissä) Excel Add in ROOKCASE (http://www.lpc.uottawa.ca/data/scripts/)
slide54
Spatiaalisten tunnuslukujen lasku CrimeStat3 ohjelmistolla – Output GIS karttalayerit – vanhukset Helsingissä
yhteenveto esda
Yhteenveto (ESDA):
  • - yksin käytettynä alueellisten jakaumien tarkastelussa ei sellaisenaan kyse tilastollisesta/matemaattisesta selittämisestä vaan kvantitatiivisesta kuvailusta- ei tarkoita, ettei voisi olla perustana selitysten etsimiselle
  • voidaan yhdistää myös pidemmälle menevään tilastopäättelyyn ja matemaattisiin mallinnusmenetelmiin
  • toisaalta tulkitut alueelliset jakaumat voivat vastata esim. uutta kaupunkirakenteen kehitystä kuvaavia yhteiskuntateoreettisia malleja => voidaan esim. tehdä yleistys, että pääkaupunkiseudulla on käynnissä yleisempää länsimaista kaupunkikehitystä seuraavia, mutta myös siitä poikkeavia piirteitä=> tukeutuen teoreettiseen kirjallisuuteen, aiempiin tutkimuksiin ja muihin aineistoihin voidaan löytää perusteltuja selityksiä yhtäläisyyksille ja eroille
tilastollinen p ttely inferential statistics
Tilastollinen päättely (inferential statistics)
  • - perusasetelmana tilastopäättelyssä arvioida (testata), kuinka todennäköisesti otoksen avulla saadut tulokset voidaan yleistää koko perusjoukkoa koskeviksi (vrt. rekisterit ja muut maantieteelliset aineistot, jotka usein kattavat koko ”populaation”)
  • hypoteesien koettelu aineistosta laskettujen testisuureiden ja merkitsevyystestien perusteella (oletusjakaumat vertailukohtana)
  • eri testeissä dataa koskevat vaatimukset vaihtelevat (mitta-asteikko, jakaumaoletukset, riippumattomuusoletukset)- myös maantieteessä hyödynnetty etenkin menneinä vuosikymmeninä paljon klassisia ”lineaarisia” tilastopäättelymenetelmiä
  • aiemmin menetelmien ongelmiin ei kiinnitetty kovinkaan paljon huomiota
tutkimusesimerkki spatiaalisesta tilastop ttelyst suvantola 2003
Tutkimusesimerkki spatiaalisesta tilastopäättelystä (Suvantola 2003):
  • Tutkimusongelma: onko hyvä- ja huono-osaisuuden alueellisessa kasautumisessa tapahtunut suomalaisissa kaupungeissa muutosta vuosien 1990 ja 2000 välillä?
  • Ratkaisu: rakennetaan hyvä- ja huono-osaisuutta mittaava summamuuttuja, lasketaan väestöruuduista Moranin globaali ja paikallinen indeksi ja määritetään tämän perusteella alueellisen kasautumisen voimakkuus ja merkitsevyystaso ko.vuosina
  • ”Summamuuttujaksi nimitetään muuttujaa, jonka arvot on saatu laskemalla yhteen useiden erillisten, mutta samaa ilmiötä mittaavien muuttujien arvot.”
spatiaalinen autokorrelaatio tulos
Spatiaalinen autokorrelaatio tulos:
  • Huono- ja hyväosaisuutta kuvaavan summamuuttujan* (lähtömuuttujina keskitulot, korkeakoulutettujen osuus ja työttömyysaste) spatiaalisesti autokorreloituneet väestöruudut 5 % riskitasolla (*) Jyväskylässä ja Joensuussa (Moranin paikallinen indeksi). Tummat ruudut kuvaavat huono-osaisia ja vaaleat ruudut hyvä-osaisia klustereita. Moranin globaalin indeksin arvot olivat vuosina 1990 ja 2000 Jyväskylässä 0.23 ja 0.31 (nouseva trendi) sekä Joensuussa 0.36 ja 0.32 (laskeva trendi)]
z arvo z score standard score
Z-arvo: (Z-score - Standard score)
  • ArcToolboxissa tilastollisessa testauksessa käytettävä z-score (”keskihajontayksikköpoikkeama”) kertoo, kuinka todennäköisesti aineistossa esiintyvä spatiaalinen autokorrelaatio on tulosta satunnaisvaihtelusta. Koska täysin satunnaisesti jakautuneessa aineistossa I-indeksi lähenee nollaa ja koska normaalijakaumaoletuksen mukaisesti 95 % kaikista havainnoista poikkeaa tästä arvosta korkeintaan 1.96 keskihajontayksikköä, z-arvon 1.96 ylittävät ja z-arvon -1.96 alittavat havainnot ovat 5 % riskitasolla spatiaalisesti autokorreloituneita.

where μ = E(X) is the mean and

σ = the standard deviation of the probability distribution of X.

z score
Z Score:
  • “We can pick any point on the X axis in the above figure and find out how many standard deviations above or below the mean that point falls. In other words, a Z score represents the number of standard deviations an observation (X) is above or below the mean. The larger the Z value, the further away a value will be from the mean. Note that values beyond three standard deviations are very unlikely. Note that if a Z score is negative, the observation (X) is below the mean. The Z score is found by using the following relationship:”
  • Z = (a given value - mean) / standard deviation
yleisimmist monimuuttujamenetelmist
Yleisimmistä monimuuttujamenetelmistä
  • lukuisten muuttujien sisältämän tiedon systemaattinen käsittely (tiedon jäsentäminen)
  • muuttujien lukumäärän karsiminen (tiedon tiivistäminen)
yhteiskunta ja kaupunkimaantieteess k ytetyimpi monimuuttujamenetelmi mm
yhteiskunta- ja kaupunkimaantieteessä käytetyimpiä monimuuttujamenetelmiä mm.:
  • regressioanalyysit (yhden selitettävän muuttujan selittäminen yhdestä tai useammasta selittävästä muuttujasta muodostuvalla regressiomallilla)
  • moniluokitteluanalyysi (MCA, Multiple Classification Analysis)
  • faktorianalyysi (vrt. pääkomponenttianalyysi, PCA = FA:n perustyyppi)
  • ryhmittelyanalyysi
regressioanalyysi esimerkki geographically weighted regression
Regressioanalyysi esimerkki: Geographically Weighted Regression

Performs GWR, a local form of linear regression

used to model spatially varying relationships.

A regression analysis has two parts:

- The dependent variable, which is the phenomenon whose level

or presence you are trying to predict or explain for each location in a study site.

- The independent variables, which are the known attributes

of the locations that influence the level or presence of the dependent variable.

arcgis gwr regressioanalyysi
ArcGIS GWR - regressioanalyysi

Output: esim. polygon layeri jossa uudet sarakkeet:

mm. mallin residuaalit; Observed; Predicted ym.

gwr regressioanalyysi ja tulokset
GWR –regressioanalyysi ja tulokset

Selitettävä muuttuja – Dependent variable =

Vanhusten lukumäärä

Selittävät muuttujat – Independent variables =

  • Teini ikäisten lukumäärä

- Vakiintuneiden lukumäärä

Tulokset:

Start Time: Mon Jan 19 14:20:42 2009

Bandwidth : 4272.001872658769

ResidualSquares : 1200113.2704064306

EffectiveNumber : 21.341926637699547

Sigma : 24.28652623722902

AICc : 18963.41858374312

R2 : 0.3289066562226495

R2Adjusted : 0.3221972578500726

gwr tuloksia vanhusten lukum r
GWR – tuloksia”Vanhusten lukumäärä”

Malli selittää vain n. 30% vanhusten lukumäärän vaihtelusta

  • Selitysaste:

R2 0.328

vanhusten lukum r gwr tuloksen arviointia residuaalien spatiaalinen autokorrelaatio analyysi
”Vanhusten lukumäärä” - GWR – tuloksen arviointia: residuaalien spatiaalinen autokorrelaatio analyysi

“Over and under predictions for a well specified regression model will be

randomly distributed. Clustering of over and/or under predictions is evidence

that you are missing at least one key explanatory variable. Examine the patterns

in your OLS and GWR model residuals to see if they provide clues about

what those missing variables might be.

Run the Spatial Autocorrelation (Moran\'s I) tool on the regression residuals

to ensure they are spatially random. Statistically significant clustering

of high and/or low residuals (model under and over predictions)

indicates the GWR model is misspecified”

Global Moran\'s I Summary

Moran\'s Index: 0,262308

Expected Index: -0,000487

Variance: 0,000293

Z Score: 15,356301

p-value: 0,000000

”Vanhusten lukumäärä” mallin

Residuaalien Moran I tulos:

Lopputulos: malli on ”huono”

slide71

1) Spatiaaliset aineistot eivät useinkaan otoksia, vaan koko populaatiota koskevaa dataa

  • esim. rakennus-, työvoima- ja demografiset tilastot Pohjoismaissa (rekisterit)
  • 2) Alueskaala vaikuttaa analyysin lopputulokseen
  • Esim. MAUP
modifiable areal unit problem maup
Modifiable areal unit problem (MAUP)

http://en.wikipedia.org/wiki/Modifiable_areal_unit_problem

  • tulokset pätevät periaatteessa vain tarkasteluun valitulla aluetasolla

Alueyksikön vaikutus väentiheyteen; Haggett et al. 1977

  • tarkastelu eri alueskaaloissa suotavaa
  • ns. ekologinen harha (osa ongelmaa): alueiden sisäinen vaihtelu jää näkymättömiin http://en.wikipedia.org/wiki/Ecological_fallacy
  • MAUP-ongelma myös esim. deskriptiivisissä tilastotarkasteluissa
the modifiable areal unit problem maup
The modifiable areal unit problem (MAUP)
  • “The modifiable areal unit problem (MAUP) is an issue in the analysis of spatial data arranged in zones, where the conclusion depends on the particular shape or size of the zones used in the analysis. Spatial analysis and modeling often involves aggregate spatial units such as census tracts and traffic analysis zones. These units may reflect data collection and/or modeling convenience rather than homogeneous, cohesive regions in the real world. The spatial units are therefore arbitrary or modifiable and contain artifacts related to the degree of spatial aggregation or the placement of boundaries. The problem arises because it is known that results derived from an analysis of these zones depends directly on the zones being studied. It has been shown that the aggregation of point data into zones of different shape can lead to opposite conclusions. Various solutions have been proposed to address the MAUP, including repeated analysis and graphical techniques but the issue cannot yet be considered to be solved. One strategy is to assess its effects in a sensitivity analysis by changing the aggregation or boundaries and comparing results from the analysis and modeling under these different schemes. A second strategy is to develop optimal spatial units for the analysis.” (lähde: Wikipedia)
slide74

3) Useiden standardimenetelmien normaalijakaumaoletus toteutuu harvoin spatiaalisilla aineistoilla

  • esim. alueellisilla väestömuuttujilla tyypillisesti vinoja jakaumia (esim. isot kaupungit –harvaan asuttu syrjäseutu)
slide75

4) Spatiaalinen autokorrelaatio

  • sotii havaintojen riippumattomuusoletusta vastaan- ”nuisance aspect of spatial autocorrelation” (Haining)
  • esimerkki: aiemmin maantieteessäkin paljon käytetty lineaarinen regressioanalyysi rakentuu riippumattomuusoletuksen varaan
    • ideana selittää yhtä (riippuvaa) muuttujaa lineaarisesti yhden/useamman selittävän (riippumattoman) muuttujan avulla
    • esimerkki regressioyhtälöstä:
  • lähtömuutto = 2.3 * työttömaste + 4.5 * alle30vosuus + 9.6 + e [selittämätön osuus]
    • malli selittää lähtömuuttoa suoraviivaisesti parhaiden selittävien muuttujien arvoilla, huomioimatta välttämättä lainkaan muuttujien alueellista käyttäytymistä
  • itse asiassa maantieteellisesti kiinnostavimpia ovat usein selitysmallin ulkopuolelle jäävät residuaalit (e = todellisten arvojen poikkeama regressiomallin ennustamasta arvosta), sillä juuri ne voivat ilmaista mallissa huomioimatta jääneen spatiaalisen rakenteen
tapoja suhtautua spatiaalisen autokorrelaation ongelmaan tilastoanalyysiss
Tapoja suhtautua spatiaalisen autokorrelaation ongelmaan tilastoanalyysissä
  • 1. olla huomioimatta ongelmia, joita perustilastomenetelmien käyttöön liittyy (aiemmin yleistä)
  • 2. karsia datan havaintoja, kunnes riippumattomuusoletus täyttyy (ei yleensä järkevää)
  • 3. tyytyä kuvailevaan tutkimusotteeseen
  • 4. hyödyntää spatiaaliselle datalle kehitettyjä tilastollisia päättelymenetelmiä
  • 5. Testataan autokorrelaation vaikutus regressioanalyysissä (esim. lasketaan Local Moran indeksi jokaiselle havainnolle (uusi muuttuja - lisätään malliin ja testataan paraneeko malli jos autokovariaatti lisätään)
tapoja suhtautua spatiaalisen autokorrelaation ongelmaan tilastoanalyysiss1
Tapoja suhtautua spatiaalisen autokorrelaation ongelmaan tilastoanalyysissä
  • - ratkaisujen etsiminen erityisesti spatiaalisen autokorrelaation ongelmaan johtanut spatiaalisten analyysimenetelmien kehitykseen
  • autokorrelaation eksplisiittiset tarkastelut ja hyödyntäminen mallien kalibroinnissa
  • myös regressiomenetelmiä, jotka soveltuvat spatiaalisille aineistoille
  • autokorrelaatio ei siis pelkästään haitta (”nuisance”), vaikka rajoittaakin monissa tapauksissa klassisten tilastomenetelmien käyttöä
gis j rjestelm t analyysiymp rist n
GIS-järjestelmät analyysiympäristönä:
  • mahdollistavat nykyisin eri analyysimenetelmien varsin joustavan yhdistelyn
  • yhdistelymahdollisuuksia lisää erikoisohjelmien kautta
  • Pelkkä GIS-ohjelmisto ei riitä tilastolliseen analyysiin
  • On opittava aineiston muokkaus ja siirtotoiminnot eri ohjelmistojen välillä
  • ”Pyhä kolminaisuus”: ArcGIS -> Excel -> Tilasto-ohjelmisto esim. SPSS tai R
  • ArcGIS – GIS-datan analyysiin > Export to Excel
  • Excel – taulukkodatan muokkaukseen >> Import to SPSS
  • SPSS tai R tilastolliseen analyysin > Export results from SPSS or R to ArcGIS
  • ArcGIS datan visualisointi esim. logistisen regression todennäköisyyskartat
harjoitus 3
Harjoitus 3
  • Tehtävä 1: Spatiaalisen kasautumisen tunnusluvut ja testaaminen: globaali ja paikallinen Moran-indeksi
  • Esimerkkeinä vertaillaan alle kouluikäisten (0–6 vuotta) ja vanhusväestön (yli 74-vuotta) keskittymistä Helsingissä. Kumpi ikäryhmistä on enemmän klusteroitunut? Missä päin Helsinkiä lasten ja vanhusväestön kasautumat sijaitsevat?
  • Tehtävä 2: Hot Spot Analysis (Getis-Ord Gi*) ja spatiaalisia tunnuslukuja (Mean Center, Standard Deviational Ellipse)
  • Helsingin alle kouluikäisten ja vanhusväestön ”Hot spot-alueet” Getis-Ord Gi* - indeksiä käyttäen. Lasketaan myös spatiaalisista perustunnusluvuista Weighted Mean Center ja Standard Deviational Ellipse.
ad