Klasifikace
Download
1 / 24

Klasifikace - PowerPoint PPT Presentation


  • 119 Views
  • Uploaded on

Klasifikace. Míry podobnosti Klastrová analýza Metoda TWINSPAN. Míry podobnosti I.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Klasifikace' - brant


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Klasifikace

Klasifikace

Míry podobnosti

Klastrová analýza

Metoda TWINSPAN


M ry podobnosti i
Míry podobnosti I.

  • Míry podobnosti (similarity measures, též resemblance functions) komplementárník mírám nepodobnosti (dissimilarity m.), nazývaným i jako vzdálenosti (distances):D = 1 – S nebo D = √(1 – S) nebo D = √(1 – S2)

  • Každá ordinační nebo klasifikační mnohorozměrná metoda založena na nějaké míře podobnosti (explicitně nebo je možné míru podobnosti zvolit)

  • Dualita zadání ordinačních metod


M ry podobnosti ii
Míry podobnosti II.

  • V případě dat popisujících složení společenstva (řádky jsou vzorky, sloupce druhy) můžeme porovnávat vzorky (podobnost vzorků, sample similarity) nebo druhy (species similarity)

  • Zásadní rozdíl v těchto dvou typech podobností:

    • Podobnosti vzorků jsou založeny na kompletním výčtu druhů dané kategorie organismů (vyšší kytky, hmyz) –s výjimkou přehlédnutých

    • Podobnosti mezi druhy jsou závislé na vzorkované škále, druhy se vyskytují v širším rozsahu podmínek a v širším geografickém rozsahu

  • Podobnosti vzorků i druhů lze počítat z prezenčních i z kvantitativních dat, pro obojí existuje mnoho typů


M ry podobnosti iii
Míry podobnosti III.

  • Existují jich desítky až stovky, zde si ukážeme jen nejvýznamnější zástupce


Podobnost vzork 0 1 data
Podobnost vzorků, 0/1 data

  • Sørensen-ův koef.S = 2a / (2a +b+c)

  • Jaccard-ův koef.J = a / (a + b + c)

d: počet druhů chybících v obou srovnávaných

vzorcích (většinou se nepoužije)


Podobnost druh 0 1 data
Podobnost druhů, 0/1 data

  • Pearson’s f (= V)

  • Yule koeficient Q

d: počet vzorků, ve kterých chybí obadruhy– většinou je třeba vzít v úvahu!


M ry podobnosti pro kvantitativn data
Míry podobnostipro kvantitativní data

  • Kvantitativní data obsahují více informací než 0-1 data

  • V zaznamenaných hodnotách se odráží přítomnost, relativní zastoupení, celková abundance (celková biomasa)

  • Tyto tři aspekty můžeme v různé míře zdůraznit či potlačit nejen volbou míry podobnosti ale i změnou dat před výpočtem


Prava kvantitativn ch dat
Úprava kvantitativních dat

  • Transformace: změna hodnot pomocí zvolené funkce Xij’ = f(Xij) pro každou hodnotu nezávisle na ostatních, např. log

  • Standardizace: úprava rozsahu hodnot uvažovaného buď přes hodnoty všech proměnných (druhů) v rámci vzorku nebo přes všechny hodnoty proměnné:standardize by sample X by species

  • Centrování: odečtení průměru proměnné (častěji) nebo vzorku od jednotlivých hodnot


Transformace odhadov stupnice
Transformace odhadové stupnice

  • Braun-Blanquet-ova odhadová stupnice (r, +, 1, 2, 3, 4, 5), případně různá zjemnění

  • Transformace buď ordinální nebo logaritmus střední pokryvnosti

Mezi oběma způsoby není podstatný rozdíl ...


Podobnost vzork kvantitativn data 1 eukleidovsk distance
Podobnost vzorků: kvantitativní data 1: Eukleidovská distance

Chceme-li standardizovat, pak normou (√ΣXj2):

ED34=1.41

ED12=1.41

ED34=0.82

ED12=1.41

ED12=14.14

ED34=12.25


Podobnost vzork kvantitativn data 2 percentage similarity
Podobnost vzork distanceů: kvantitativní data 2: Percentage similarity

  • Obdoba Sørensenova koeficientu pro kvantitativní data

  • Doplněk do jedné se nazývá Bray-Curtis distance a bývá často doporučována pro metodu nemetrického mnohorozměrného škálování (NMDS)


Podobnost druh kvantitativn data
Podobnost druhů: kvantitativní data distance

  • Korelační koeficienty (Pearsonův lineární, neparametrické: Spearmanův, Kendallův)

  • c2 distance (i pro vzorky!)

Si+ je součet hodnot všech druhů ve vzorku i

S+j je součet hodnot druhu j přes všechny vzorky


M ry podobnosti telegraficky 1
Míry podobnosti: telegraficky 1 distance

  • Porovnávání podobnosti vzorků vs. podobnosti společenstev: NESS index (normalized expected species shared), jednodušší forma: Morisita index

  • Používáme tam, kdy je společenstvo jen částečně reprezentováno vzorky, a tos proměnlivou reprezentativností podle velikosti vzorku (počty jedinců)


M ry podobnosti telegraficky 2
Míry podobnosti: telegraficky 2 distance

  • Matice podobností (či nepodobností = vzdáleností) musíme zadat jako vstup nejen pro klastrovou analýzu, ale také pro mnohorozměrné škálování a Mantelův test

  • Multidimensional scaling:

    • Metric – principal coordinates analysis (PCO, PCoA)

    • Nonmetric – NMDS (kritérium stress)

  • Mantelův test – porovnání dvou (či více) matic vzdálenosti – test vztahu


Klasifikace1
Klasifikace distance

  • Je-li výsledkem skupina rovnocenných tříd, jde o nehierarchickou (nonhierarchical) klasifikaci, např. K-means clustering

  • Opakem zařazení klasifikovaných objektů do hierarchie tříd znázorňované dendrogramem

  • Způsobem vzniku této klasifikace se odlišují divisivní (rozdělující) metody – např. metoda TWINSPAN, a aglomerativní (spojující) metody – tj. klastrová analýza v užším významu


Rozhodnut v klastrov anal ze
Rozhodnutí v klastrové analýze distance

  • Klastrová analýza nemůže být „objektivní“ metoda – každé z uvedených rozhodnutí odráží specifika kladené otázky a/nebo subjektivní pohled badatele

  • Je ale „opakovatelná“ (reproducible)

  • Jak zaznamenámzastoupení druhů?

(2) Jak vyjádřím podobnostjednotlivých vzorků?

(3) Jak vyjádřím podobnostskupin (klastrů)?


Klastrov anal za spojov n
Klastrová analýza - spojování distance

Vzdálenosti mezi objekty máme v zadané matici (ne)podobností. V hierarchické klasifikaci ale potřebujeme i vzdálenosti mezi shluky (klastry) nižšího řádu...


Klastrov anal za metody
Klastrová analýza - metody distance

  • Single linkage (nejkratší cesta) vs. complete linkage (nejdelší cesta)

  • Další možné: average linkage (UPGMA), Wardova metoda, ...

  • Řetězení (chaining)


Klastrov anal za po ad objekt
Klastrová analýza – pořadí objektů distance

Pořadí objektů je do značné míry libovolné


Twinspan 1
TWINSPAN 1 distance

  • Two Way INdicator SPecies ANalysis, hierarchická divisivní metoda, vznikla pro hledání struktury ve vegetačních tabulkách

  • Při každém rozdělení (pod)souboru snímkůvychází z první osy korespondenční analýzy (CA), pozice snímků ale dále upravuje

  • Pracuje s 0/1 hodnotami (přítomnosti druhů),pro kvantitativní data používá koncept tzv. pseudospecies (definovány podle cut levels)

  • Současná klasifikace snímků i druhů


Twinspan 2 pseudospecies
TWINSPAN 2 - pseudospecies distance

  • Vhodnou volbou hranic (cut levels) můžeme zdůraznit či potlačit vliv dominant


Twinspan 3 uspo d n skupin
TWINSPAN 3 – uspořádání skupin distance

Podobnost skupiny 01 se skupinou 1 je větší, než mezi skupinami 00 a 1. Vytváří se tak plynulá bloková struktura tabulky


Twinspan 4 rozd len
TWINSPAN 4 - rozdělení distance

Indikátory dělení, preferenční druhy