1 / 28

Daugiamatė statistika

Darius Daunys Baltijos paj ūrio aplinkos tyrimų ir planavimo institutas Klaipėdos universitetas. Daugiamatė statistika. Turinys. Ordinacijos (Ordination) PCA (Principal Component Analysis) RDA (Redundancy Analysis).

salali
Download Presentation

Daugiamatė statistika

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Darius DaunysBaltijos pajūrio aplinkos tyrimų ir planavimo institutasKlaipėdos universitetas Daugiamatė statistika

  2. Turinys • Ordinacijos (Ordination) • PCA (Principal Component Analysis) • RDA (Redundancy Analysis) Tikslas: atskleisti dėsningumus duomenyse (ypač tarp imčių elementų), kurie negali būti nustatyti analizuojant kintamuosius atskirai.

  3. Ordinacijos (Ordination) Pagrindinis tikslas – duomenųn-matės erdvės sumažinimas:i)daugelis kintamųjų suprastinami iki kelių, lengvai interpretuojamų kintamųjų, kuriems būdingos pradinių duomenų savybės; ii) tikėtina, jog erdvės sumažinimas padės atskleisti dėsningumus, kurie “nematomi” analizuojant duomenis paprastais vienmačiais (univariate) metodais. Daugelis daugiamačių metodų turi lengvai interpretuojamas grafines rezultatų pateikimo formas, todėl šie metodai tapo ypač populiarūs.

  4. Panašumų (arba skirtumų) matrica visoms galimoms n(n-1)/2 imčių poroms yra tik tarpinė “medžiaga”, kurioje reikia rasti dėsningumus. Tikslas: rasti labiausiai tinkamą imčių grupavimą, kur grupių viduje imtys būtų labiau panašios tarpusavyje nei lyginant su imtimis iš kitų grupių Įvairūs klasterizacijos metodai: hierarchinė, optimizavimo, modos ieškantys ir t.t. Toliau šioje paskaitoje bus priustatoma hierarchinė klasterinė analizė.

  5. Klasterinė analizė Imtys 1 2 3 4 Sp.1 1.7 0 0 0 Sp.2 2.1 0 0 1.3 Sp.3 1.7 2.5 0 1.8 Sp.4 0 1.9 3.5 1.7 Sp.5 0 3.4 4.3 1.2 Sp.6 0 0 0 0 Imtys 1 2 3 4 1 - 2 25.6 - 3 0.0 67.9 - 4 52.2 68.1 42.0 - • Grupavimas pradedamas nuo didžiausią panašumą turinčių imčių apjungimo: 2 ir 4 imties. Panašumo indeksas 68 100 2 4 3 1

  6. Klasterinė analizė Imtys 1 2 3 4 1 - 2 25.6 - 3 0.0 67.9 - 4 52.2 68.1 42.0 - Imtys 1 2&4 3 1 - 2&4 38.9 - 3 0.0 55.0 - • Antrame grupavimo žingsnyje skaičiuojama nauja panašumo matrica. Panašumas tarp 2&4 ir 1 priklausys nuo panašumo tarp 2 ir 1 bei 4 ir 1:a) lygus max. tarp 2 ir 1 bei 4 ir 1;b) lygus vidurkiui tarp 2 ir 1 bei 4 ir 1;c) lygus min tarp 2 ir 1 bei 4 ir 1. 55 Panašumo indeksas 68 100 2 4 3 1

  7. Klasterinė analizė Klasterinės analizės rezultatas pateikiamas dendrogramoje. Grupavimo rezultatas priklauso nuo pasirinktos panašumo reikšmės, ties kuria nustatomos grupės. Daug grupių retai yra laukiamas rezultatas. 8 grupės 3 grupės 5 grupės

  8. Ordinacijos • n-mačiai duomenys – paprasčiausias pavyzdys; Dažniausiai n-mačius duomenis sudaro n-objektų (rūšių) stebėjimai k stotyse

  9. U. uruguayensis L. acuta N. succinea Ordinacijos • kaip suvesti n-mačius duomenis į dvimatę erdvę? – Bray-Curtis ordinacijos pavyzdys; 1) Max. panašumo vertė tarp 2-jų rūšių;2) Atstumas tarp 2-jų rūšių – 1 vienetas;3) 3-ios rūšies (U. uruguayensis) vieta ašyje: a) apskritimų spinduliai proporcingi panašumui; b) vietą ašyje atitinka dviejų apskritimų susikirtimo projekcija į ašį.4) Kitoms rūšims procedūra kartojama. spindulys (100-88) spindulys (100-93)

  10. Ordinacinės analizės pavyzdys Ordinacinės analizės rezultatas pateikiamas dvimatėje erdvėje, kur panašumo indekso vertės tarp objektų perkeliamos panaudojant proporcingus atstumus. Ir klasterinėje analizėje, grupavimo rezultatas priklauso nuo tyrėjo. 4 1 grupė 4 1 1 2 2 3 3 6 5 8 7 7 Tolydi kaita 9 9 5 6 8 2 grupė Stress < 0,1 – no prospect for misinterpretation; <0,2 – potentially useful 2d picture, limited reliance on details of the plot; 0,2-0,3 – limited interpretation particularly for n<50; >0,3 – close to random placement of grouping objects.

  11. Pagrindinių komponenčių analizė(Principal Component Analysis - PCA) Tiesioginė gradientinė analizė – analizuoja imties elementus nepriklausomų kintamųjų kontekste Netiesioginė gradientinė analizė – analizuoja imties elementus kelių kintamųjų kontekste ir atrastus dėsningumus vėliau perkelia į ryšius su nepriklausomais kintamaisiais.

  12. Pagrindinių komponenčių analizė • neskiriami priklausomi ir nepriklausomi kintamieji; • nereikalauja duomenų normališkumo. Tikslas: analizuoti tiesinius ryšius tarp kintamųjų. PCA transformuoja j kintamuosius (nuo 1 iki p) (Y1, Y2... Yp) į k (nuo 1 iki p) tarpusavyje nekoreliuojančių kintamųjų (Z1, Z2... Zp) Taikant PCA tikimasi, jog didžioji dalis kaitos duomenyse (erdvė proporcinga kintamųjų skaičiui) vienaip ar kitaip yra tarpusavyje susijusi. Todėl tikslas yra surasti tokias nepriklausomas komponentes (jų gali būti tiek kiek yra kintamųjų), kurios atspindėtų didžiausią kiekį kaitos duomenyse. Pvz. analizuojant bebro poveikį vandens biogeocheminiams procesams 4 biotopuose matuotos porinio vandens ir grunto charakteristikos: N-tot, N-NH4, N-NO3, P, K, Ca, Mg, Fe, Eh... Trys komponentės paaiškino 75% visų šių charakteristikų kaitos. Pirmoji komponentė geriausiai aprašė N-tot ir P, antroji N-NH4 ir Eh, trečioji – Fe, Mg ir Ca.

  13. Pagrindinių komponenčių analizė Ištieskite delną prieš projektoriaus šviesą, pasukinėkite jį ir stebėkite, kaip trimačio objekto šešėlis keičiasi ant dvimatės ekrano erdvės - tikslas – pasukti delną taip, kad projekcija ekrano dvimatėje erdvėje būtų kiek galima panašesnė į delną– PCA mechanizmo pavyzdys pagal Shaw (2003). . 1) Tarkim, jog turime du neigiamą ryšį turinčius kintamuosius R ir NAP (1 pav.) 2) Normalizuokime šiuos kintamuosius (2 pav.) ir nubrėžkime dvi statmenas ašis, kurios atspindėtų daugiausia informacijos. PCA informacijos kiekis yra proporcingas dispersijai. 1-os dvi ašys atspindi daugiausia dispersijos, 1 – oji daugiau nei 2-oji. 3) Pasukime naujas ašis įprastu kampu (3 pav.). Šis grafikas vadinamas PCA ordinacija. 4) Visus taškus galima projektuoti į vieną ašį (4 pav.), t.y. taip pat kaip ir sukant delną prieš projektorių ir stebint šešėlį ant ekrano. Taikant PCA šiuo atveju būtų apskaičiuota, kad pirmoji ašis atspindi (paaiškina) 76% visos dispersijos duomenyse.

  14. 2 Ašis 2 1 Ašis 1 3 4 PCA pagrindinio principo demonstracija: 1) duomenys; 2) ir 3) normalizuoti duomenys ir PCA ašys, 4) taškų projekcija pirmoje ašyje (iš Zuur at al., 2007)

  15. Pagrindinių komponenčių analizė Normalizavus ir pasukus ašis, kaip parodyta 1-4 pav., naujos ašys būtų aprašytos taip: Zi1 = c11Ri + c12 NAPi ir Zi2 = c21Ri + c22 NAPi Duoto pavyzdžio atveju pirma ašis būtų aprašoma taip: Zi1 = -0,7 Ri + 0,7 NAPi kur: Z – pagrindinės komponentės, X – pradiniai kintamieji, C – sukimo arba daugybos faktoriai Pagrindinis PCA tikslas yra rasti Z1ašį, kuri turėtų didžiausią dispersiją.

  16. Pagrindinių komponenčių analizė n kintamųjų atveju PCA skaičiuoja šių kintamųjų tiesines kombinacijas: Zi1 = c11Yi1 + c12 Yi2 + … + c1n Yin ; Zi2 = c21Yi1 + c22 Yi2 + … + c2n Yin Kur c11, ... c1n koeficientai yra tokie, kad Z1 turi didžiausią dispersiją, o patys koeficientai vadinami faktorių svoriai (factor loadings). Jeigu duomenys normalizuoti (kas paprastai daroma PCA), tai PCA atvaizduoja koreliacijas tarp kintamųjų.

  17. Pagrindinių komponenčių analizė Tradicinis būdas PCA rezultatams atvaizduoti yra duomenų parodymas dviejų pirmųjų ašių (komponenčių) atžvilgiu, tačiau šių grafikų interpretacija yra sunki. Nuosavos reikšmės (eigenvalues) parodo dispersijos dalis, kurias paaiškina ašys. Jos gali būti išreiškiamos absoliučiais dydžiais (col 2), procentais nuo bendros dispersijos (col 3), arba sukauptaisiais procentais (col 4). Column 1: axis [ašis] Column 2: eigenvalue [nuosava reikšmė] Column 3: eigenvalue as percentage [nuosavos reikšmės santykinė vertė] Column 4: eigenvalue as cumulative percentagepercentage [nuosavos reikšmės santykinė sukauptoji vertė] Col 1 Col 2 Col 3 Col 4 1 3.550 50.717 50.717 2 1.333 19.050 69.767 3 0.784 11.201 80.968 4 0.578 8.253 89.221 5 0.443 6.332 95.553 6 0.295 4.210 99.763 7 0.017 0.237 100.000

  18. Pagrindinių komponenčių analizė Dažniausiai pateikiamos pirmos komponentės, kurios kartu paaiškina 80% visos dispersijos. Kitas būdas yra naudotis “broken stick” reikšmėmis: Jeigu j ašies nuosava reikšmė yra didesnė už Lj, tai tokia ašis gali būti laikoma svarbi. Column 1: axis Column 2: eigenvalue Column 3: eigenvalue as percentage Column 4: eigenvalue as cumulative percentage Column 5: broken stick value Col 1 Col 2 Col 3 Col 4 Col 5 1 3.550 50.717 50.717 0.370 2 1.333 19.050 69.767 0.228 3 0.784 11.201 80.968 0.156 4 0.578 8.253 89.221 0.109 5 0.443 6.332 95.553 0.073 6 0.295 4.210 99.763 0.044 7 0.017 0.237 100.000 0.020

  19. Pagrindinių komponenčių analizė Paprastesnis PCA rezultatų atvaizdavimo būdas – PCA biplot (normalizuotiems duomenims – visi kintamieji lygūs). Kintamųjų tiesių ilgis yra proporcingas jų dispersijoms arba parodo atvaizdavimo kokybę (normalizuoti duomenys). Trumpas linijas turintys kintamieji turi būti interpretuojamiatsargiai. Kampas tarp linijų aproksimuoja koreliacijos dydį tarp atitinkamų kintamųjų. Taškų projekcijos į kintamųjų linijas rodo kintamojo įgyjamų reikšmių absoliučias vertes. Atstumai tarp taškų apytiksliai atspindi panašumus tarp stebėjimų (Melanobis atstumus – koreliacijų matricoje, Euklido atstumus – atstumų matricoje).

  20. Pagrindinių komponenčių analizė Privalumai: - konceptualiai paprastas, lengvai suprantamas geometrinis “labiausiai” tinkamos plokštumos parinkimas; - ordinacijos ašys interpretuojamos – kintamųjų tiesinės kombinacijos (dėl mažesnio skaičiaus dažniau naudojamos aplinkos parametrams). Trūkumai: - mažas skirtumo matų (tarp stebėjimų) pasirinkimas – naudoja Euklido atstumą tarp dviejų stebėjimų ir jį atvaizduoja bedimensinėje erdvėje (kiti skirtumo rodikliai negali būti įtraukti į PCA algoritmą); - dominuojančios nulinės reikšmės lemia, kad du kintamieji turi aukštas koreliacijas. Rekomendacijos: - PCA dažniausiai tinkamas aplinkos rodikliams (mažai nulinių reikšmių, Euklido atstumas labiau tinkamas skirtumams matuoti); - net jei duomenys transformuojami, patartina normalizuoti; - būtina atsižvelgti, jog PCA įvertina tik tiesinius ryšius tarp kintamųjų

  21. Redundancy Analysis - RDA

  22. Redundancy analysis Jei PCA taikytume priklausomiems ir nepriklausomiems kintamiesiems kartu, didelės koreliacijos tarp nepriklausomų kintamųjų neleistų parodyti ryšių su nepriklausomais kintamaisiais. Redundancy analysis yra PCA analizės tęsinys, kuris modeliuoja priklausomus kintamuosius kaip nepriklausomų kintamųjų funkcijas. . RDA naudojama N priklausomų kintamųjų, kurie stebėti kvietose, ir Q nepriklausomų kintamųjų, kurie stebėti tose pačiose vietose, duomenis. nepriklausomi kintamieji priklausomi kintamieji

  23. Redundancy analysis RDA rezultatų atvaizdavimo būdas – nepriklausomi ir priklausomi kintamieji rodomi linijomis, stebėjimai – taškais. Grafiko interpretacija panaši kaip ir PCA . Jeigu tikslas yra ryšių tarp kintamųjų analizė – naudotinas koreliacija pagrįstas ordinacinis grafikas, jei stebėjimų analizė – atstumais pagrįsta ordinacija. Kintamųjų tiesių ilgis yra proporcingas jų dispersijoms. Trumpas linijas turintys kintamieji turi būti interpretuojamiatsargiai. Kampai tarp kintamųjų linijų rodo jų tarpusavio koreliacijos dydį (kuo mažesnis kampas, tuo didesnė koreliacija). Taškų projekcijos į priklausomų kintamųjų linijas rodo šių kintamųjų įgyjamų reikšmių absoliučias vertes, tačiau jų padėtis nerodo tarpusavio reikšmių santykinių dydžių skirtumų.

  24. Redundancy analysis Brodgar pateikiami skaitiniai rezultatai: • *** Eigenvalue information *** • Column 1: axis[ašis] • Column 2: eigenvalue[nuosava reikšmė] • Column 3: eigenvalue as percentage of total inertia[santykinė nuosava reikšmė] • Column 4: idem, but cumulative[santykinė sukaupta nuosava reikšmė] • Column 5: eigenvalue as percentage of sum of all canonical eigenvalues[santykinė nuosava reikšmė pagrindinių ašių atžvilgiu] • Column 6: idem, but cumulative[t.p kaip 5, bet sukauptasis] • Col 1 Col 2 Col 3 Col 4 Col 5 Col 6 • 1 0.099 9.899 9.899 70.230 70.230 • 2 0.035 3.533 13.432 25.066 95.297 • Total inertia or total variance: 1.00 • Sum of all canonical eigenvalues: 0.14

  25. Redundancy analysis Brodgar pateikiami skaitiniai rezultatai: *** Eigenvalue information *** Column 1: axis Column 2: eigenvalue Column 3: eigenvalue as percentage of total inertia Column 4: idem, but cumulative Column 5: eigenvalue as percentage of sum of all canonocal eigenvalues Column 6: idem, but cumulative Col 1 Col 2 Col 3 Col 4 Col 5 Col 6 1 0.099 9.899 9.899 70.230 70.230 2 0.035 3.533 13.432 25.066 95.297 Total inertia or total variance: 1.00 Sum of all canonical eigenvalues: 0.14 Nuosavų reikšmių suma – kokią dalį priklausomų kintamųjų kaitos paaiškina nepriklausomi kintamieji – 14%

  26. Redundancy analysis Brodgar pateikiami skaitiniai rezultatai: *** Eigenvalue information *** Column 1: axis Column 2: eigenvalue Column 3: eigenvalue as percentage of total inertia Column 4: idem, but cumulative Column 5: eigenvalue as percentage of sum of all canonical eigenvalues Column 6: idem, but cumulative Col 1 Col 2 Col 3 Col 4 Col 5 Col 6 1 0.099 9.899 9.899 70.230 70.230 2 0.035 3.533 13.432 25.066 95.297 Total inertia or total variance: 1.00 Sum of all canonical eigenvalues: 0.14 Dvi ašys paaiškina 95.296% visų 14%, kuriuos paaiškinai neprikl. kintamieji – 2 ašys gerai parodo tai, ką paaiškina neprikl. kintamieji.

  27. Redundancy analysis Nepriklausomų kintamųjų atranka (forward selection X): Results forward selection Sum of all eigenvalues= 0.141 MARGINAL EFFECTS 1 0.03 23.26 2 0.10 68.94 3 0.05 32.08 4 0.04 25.40 Column 1: Index refering to explanatory variables Column 2: Eigenvalue using only one explanatory variable Column 3: Eigenvalue as % (of sum all eigenvalues) using only one explanatory variableThe following explanatory variables were used. 1 angle2 2 exposure 3 salinity 4 grainsize Nuosava reikšmė vieno nepriklausomo kintamojo jį naudojant atskirai

  28. Redundancy analysis Brodgar pateikiami skaitiniai rezultatai (pasirinkus nepriklausomų kintamųjų atranką (forward selection X): CONDITIONAL EFFECTS (=Increase total sum of eigenvalues after including new variable) Variable F statistic P-value 2 0.104.628 0.005 30.020.871 0.555 1 0.02 0.713 0.680 4 0.01 0.480 0.835 Column 1: Index refering to explanatory variables Column 2: The increase in explained variation due to adding an extra explanatory variable. The following explanatory variables were used. 1 angle2 2 exposure 3 salinity 4 grainsize Kokią dalį prikl. kint. kaitos paaiškina neprikl. kint., jį pridėjus prie aukščiau esančių – sąlyginis efektas Kriterijaus statistika ir p-reikšmė, rodantys padidėjusios paaiškintos kaitos reikšmingumą

More Related