Analýza hlavných komponentov

Analýza hlavných komponentov (PCA – Principal Component Analysis)

X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 Xp 1 2 3 4 5 n Viacrozmerné metódy n > p

Metódy analýzy skrytých vzťahov

Často v praxi vzniká problém: • začiatočný počet premenných, popisujúcich objekty (pozorovania) je vysoký a naviac premenné sú vzájomne korelované (problém multikolinearity) . • zjednodušením môže byť vytvorenie menšieho počtu znakov (premenných) bez podstatnej straty informácie • K riešeniu tohto problému boli vytvorené dve metódy: • Analýza hlavných komponentov – Principal Components Analysis – PCS • Faktorová analýza – Factor Analysis - FA • PCA a FA patria do metód analýzy skrytých vzťahov • a metód zníženia dimenzie

Metódy analýzy skrytých vzťahov • premenné nemožno logicky rozdeliť do dvoch skupín na závislé a nezávislé • cieľom je pochopiť alebo identifikovať prečo a ako sú premenné navzájom korelované t.j. ako sa navzájom ovplyvňujú • ak sú premenné navzájom prepojené – korelované, možno rovnaký objem informácií vystihnúťmenším počtom premenných – zníženie dimenzie • Obe metódy vychádzajú z analýzy kovariačnej resp, korelačnej matice pôvodných premenných a pokúšajú sa nájsť skryté – nemerateľné- latentné prememnné. Tieto premenné sa nedajú merať, ale majú schopnosť vecnej interpretácie.

Analýza hlavných komponentov, PCAAplikácie PCA Finančný analytik - zistenie finančného zdravia firmy. Na základe veľkého počtu ukazovateľov znakov(napr. 120), ktoré sú použiteľné a medzi ktorými je korelácia je nákladné, náročné a ťažko interpretovateľné hodnotenie finančného zdravia podniku). Úloha analytika: vytvorenie menšieho počtu ukazovateľov (3, viac), resp. indexov, ktoré sú lineárnymi kombináciami pôvodných 120 ukazovateľov (napr. DIJA) Marketingový manažér – vytvorenie regresného modelu pre predpoveď predaja – problém multikolinearity zvolených premenných (skreslenie štd. odchýlok). ...snaha o vytvorenie nových premenných , ktoré sú lineárnymi kombináciami pôvodných premenných , ale už nebudú korelované . Pre regresný model bud použité nové premenné Kontrola kvality – snaha vytvoriť z dostupných ukazovateľov nové zložené ukazovatele (indexy ) o procese výroby – využitie pri kontrole kvality

Analýza hlavných komponentov • Charakteristika • predmetom analýzy je skupina kvantitatívnych premenných • je metóda, ktorá umožňuje vytvárať nové premenné, ktoré sú lineárnou kombináciou pôvodných premenných • nové premenné sa nazývajú hlavné komponenty (HK) • Cieľ • Identifikácia odľahlých pozorovaní, resp. vplyvných pozorovaní (outliers) • Zníženie dimenzie (premenných) viacrozmernej analýzy • Odstránenie závislosti medzi premennými, následné použitie HK v zhlukovej analýze, pri tvorbe regresných modelov na odstránenie multikolinearity

Matematické a geometrické vyjadrenie hlavných komponentov premenné X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 XP 1 2 3 4 5 n

Analýza hlavných komponentov • Každá štatistická jednotka je charakterizovaná viacerými ukazovateľmi (premenné, znaky), predstavuje body v p-rozmernom priestore • Každá z pôvodných premenných má v súbore nejakú variabilitu, meranú rozptylom. Rozptyl je nositeľom informácie. • Pozn. Ak premenná nemá pre dané pozorovania žiadnu variabilitu • všetky pozorovania majú rovnakú hodnotu, • nemôže na základe tejto premennej pozorovania odlíšiť a teda nám nedáva žiadnu informáciu o ich charaktere • Celkový objem informácie získame súčtom rozptylov jednotlivých premenných

PCA je ordinálna metóda, ktorá umožňuje redukovať počet dimenzií v euklidovskom priestore (definovanom korelovanými premennými ) tak, aby nedošlo k strate informácií Pôvodných p vzájomne korelovaných (pozorovaných) premenných je nahradených novými q vzájomne nekorelovanými (ortogonálnymi) nemerateľnými „syntetickými“ premennými tak, že prvá nová súradnicová os (prvý HK) je vedená v smere maximálnej variability medzi objektmi (štatist. jednotkami). Druhá os (druhý HK) je kolmá na prvú os a je vedená v smere druhej najväčšej variability medzi objektmi, atď . Relatívna pozícia objektov v pôvodnom priestore a v novom priestore (danom HK) je rovnaká. T.zn. pôvodný súradnicový systém sa natáča do smeru max. variability medzi objektmi, pričom euklidovské vzdialenosti medzi objektmi sa zachovávajú. Analýza hlavných komponentov

PCA - hlavné komponenty v základnom súbore Cieľ PCA: nájdenie skutočného (nového) rozmeru, v ktorom sa údaje nachádzajú. Pre splnenie tejto úlohy je výhodné určiť nové súradnicové osi tak, aby platili podmienky V1 až V5 • V1 Vzájomná poloha bodov v p-rozmernom priestore (pozorovaní) sa nemení . Nové osi predstavujú nové umelé premenné - hlavné komponenty, HK. Nové hodnoty premenných na štatistických jednotkách (pozorovaniach) nazývame komponentové body (komponentové skóre). • V2 Každá z nových premenných je lineárnou kombináciou pôvodných p-premenných • V3 Nové premenné – HK, ktorých počet je max. p sú navzájom (po dvojociach) nekorelované. • V4. Prvý HK vysvetľuje najväčšiu časť variability údajov, preto je najdôležitejší. Myslí sa tým naväčšiu časť zo súčtu rozptylov všetkých p pôvodných premenných. • V5 Každý ďalší HK vysvetľuje čo najväčšiu časť zo zostávajúcej variability údajov tak, že na posledný komponent ostane len nepatrný zvyšok

PCApredpokladajme, že súbor pôvodných p – premenných X1, X2, ..., Xp transformujeme na nové premenné Y1, Y2, ...,Yp – hlavné komponenty premenné hlavné komponenty X1 X2 X3 X4 X5 X6 Xp Y1 Y2 Y3 Yq 1 2 PCA 3 4 p  q 5 n Y1 = a11 x1 + a12 x2 + a13 x3 + …. + a1p xp Y2 = a21 x1 + a22 x2 + a23 x3 + …. + a2p xp ...

Y1 = a11 x1 + a12 x2 + a13 x3 + …. + a1p xp Y2 = a21 x1 + a22 x2 + a23 x3 + …. + a2p xp Y3 = a31 x1 + a32 x2 + a33 x3 + …. + a3p xp …. Yp = ap1 x1 + ap2 x2 + ap3 x3 + …. + app xp Analýza hlavných komponentov • Hlavné komponenty sú lineárnou kombináciou pôvodných premenných hlavné komponenty aij koeficienty saturácie, váhy • Hlavné komponenty Yi • maximálne možno vytvoriť rovnaký počet HK ako pôvodných premenných, • každý HK je lineárnou kombináciou pôvodných premenných, • nové premenné sú navzájom nekorelované (nezávislé)

Analýza hlavných komponentov HK sú odhadnuté tak, že • 1. HK vystihuje maximálny objem informácií pôvodných premenných (max. podiel rozptylu) • 2. HK vystihuje maximálny objem z informácií pôvodných premenných, ktoré neboli vystihnuté 1. HK • 3. HK vystihuje maximálny objem z informácií pôvodných premenných, ktoré neboli vystihnuté 1. a 2. HK • atď.

Analýza hlavných komponentov Koeficienty, váhy HK, saturácieaij sú odhadované tak, že • sú splnené podmienky V1 až V5. • celková variabilita sa nezmení , t.j. rozptyl nových a pôvodných premenných sa rovná 1, t.j. • aij2= 1 ai12 + ai22 + ..+ aip2 = 1, pre každé i=1, 2,...p (zabezpečuje, aby sa nezmenila variabilita HK oproti pôvodným premenným Xi) • ai1aj1 + ai2aj2 + ….+ aipajp = 0 pre i  ji, j =1,2,...,p • (zabezpečuje nezávislosť nových premenných, čiže HK)

PCA – úprava údajov Pred odhadom je potrebné rozhodnúť, z akých údajov sa bude vychádzať, upraviť pôvodné pňremenné: ak majú rovnakú mernú jednotku • je potrebné brať do úvahy centrované hodnoty, aby sme odstránili posun v strednej hodnote: Kovariačná matica ak majú rôzne merné jednotky • je potrebné brať do úvahy normované(štandardizované) hodnoty, aby sme ich previedli na spoločný základ: Väčšinou sa pracuje s korelačnou maticou

Podľa vstupných údajov: • Centrovaná PCA – vychádzame z kovariančnej matice, centrovanie znakov • Štandardizovaná PCA – vychádzame z korelačnej matice, Centrovanie a preškálovanie premenných, normovanie premenných • Necentrovaná PCA – vychádzame z pôvodných premenných.

Analýza hlavných komponentov • vlastnosti hlavných komponentov • E(Yi)= 0 • D(Yi) = i • D(Y1)  D(Y2)  D(Y3) ….  D(Yp) = 1 2 3 ...  p • cov (Yi,Yj) = 0 , pre i ≠ j • odhad hlavných komponentov • | S - I | = 0, kde S je výberová kovariančná matica výsledkom výpočtu sú vlastné čísla matice 1i,i=1, 2, ...p • vlastné čísla matice sú odhadom variability HK • D(Yh)=s2(Yh) = h • | S - hI | Ah = 0 výsledkom sú saturácie pre h-tý HK, váhy aij pôvodných premenných Xj pri tvorbe i-tého komponentu.

Analýza hlavných komponentov • podiel variability vysvetlený q-tým HK • celkový rozptyl (variabilita)  s2(Yh) = h • podiel variability vysvetlený h-tým komponentom h /h

PCA – určenie počtu HK • aký počet komponentov uvažovať • podľa vlastnej úvahy • o potrebe zachovania informácií (90%) • Kaiserovo kritérium • akh > priemer(),potom h-tý HK je štatisticky významný, • kdepriemer(pr.)= (1/p)h

Analýza hlavných komponentov • aký počet komponentov uvažovať • Testom sféričnosti (Anderson).., že len prvých q HK je významných • H0 : q+1= q+2= …. = p = 0 • H1 : neplatí H0 • začneme q=0 => ak platí H1 => HK1 je štat. významný • pokračujeme, kým sa nepotvrdí H0 Testovacie krotérium V má CHÍ- kvadrát rozdelenie

Interpretácia výsledkov • Komponentové skóre (component scores)- predstavuje súradnice objektu v novom priestore definovanom HK-ami. Jeho hodnotu pre j-tú štatist. jednotku (j=1,2,...,n) v i-tom komponente vypočítame podľa: yij= aij(xJ –xpr.) • Vlastné vektory – kosínusy (eigen vectors) - vyjadrujú smer vektorov, ktoré charakterizujú vplyv pôvodných znakov na komponenty. Čísla (prvky) vlastných vektorov predstavujú komponentové váhy (saturácie) jednotlivých premenných pri tvorbe príslušného komponentu. Čím je hodnota aij vyššia, tým viac informácie o pôvodnej premennej Xj vysvetľuje komponent Yi . Dôležité je zistiť, všetky prememenné s vysokými váhami pre daný komponent. Komponent je potom tým javom (latentným znakom), ktorý stojí v pozadí premenných a snažíme sa ho vhodne interpretovať. Aká vysoká má byť váha? Obvykle sa ako vysoká váha považuje, ak I(aij )I>0,5.

Table of Principal Components Component Component Row Label 1 2 1 Integra -1.49203 0.00673575 2 Legend 2.37408 -0.247278 3 90 0.165636 -0.261873 4 100 2.23212 1.01524 5 535i 1.52815 -2.15174 6 Century 0.723227 1.39817 7 LeSabre 3.46805 0.778351 8 Roadmaster 6.6603 0.133406 9 Riviera 2.24466 -1.07736 STATGRAPHICS PCA – Komponentové skóre

Komponentové váhy - saturácie Table of Component Weights Component Component 1 2 Engine Size 0.332726 -0.133891 Horsepower 0.268123 -0.442852 Fueltank 0.311244 -0.210124 Passengers 0.238683 0.530291 Length 0.335379 0.02122 Wheelbase 0.335386 .0610323 Width 0,324896 -0,134248 U Turn Space 0,299218 .0830471 Rear seat 0,231256 0,3351 Luggage 0,276494 0,322776 Weight 0,337017 0.206599 The weights

PCA - Interpretácia výsledkov • Vlastné čísla h(eigenvalue) - vyjadrujú objem variability , ktorá je zachytená príslušným komponentom. Z hľadiska interpretácie nie sú dôležité konkrétne hodnoty , ale vyjadrenie ich podielu na celkovom rozptyle h /h • Koeficienty korelácie - koeficient korelácie vyjadruje na koľko daná pôvodná Xi ovplyvňuje nový HK Yi • čím je koeficient vyšší, o to viac vplýva pôvodnápremenná na nový HK • možno interpretovať v zmysle nových premenných r(xj, Yh)= ajh.h/sj • Ordinačné grafy objektov (pozorovaní ) - zobrazujú štatistické jednotky – objekty v súradnicovom systéme pôvodných premenných

Vlastné čísla Principal Components Analysis Component Percent of Cumulative Number Eigenvalue Variance Percentage 1 7.92395 72.036 72.036 2 1.32354 12.032 84.068 3 0.47071 4.279 88.347 4 0.353248 3.211 91.559 5 0.269048 2.446 94.004 6 0.190242 1.729 95.734 7 0.172892 1.572 97.306 8 0.107148 0.974 98.280 9 0.0824071 0.749 99.029 10 0.0694689 0.632 99.660 11 0.0373497 0.340 00.00

Výstupy – scree plot

PCA – interpretácia výsledkov • Ordinačné grafy znakov(premenných) zobrazujú pôvodné premenné v novom súradnicovom systéme HK. Vplyv znaku na HK sa interpretuje tak, , že sa porovnávajú vektory jednotlivých znakov (spájajú nulový bod súradnicovej sústavy s príslušným znakom). Čím je vektor dlhší, tým je pôsobenie znaku silnejšie a čím je uhol medzi vektorom a príslušnou komponentovou osou menší, tým je vplyv znaku silnejší na daný komponent. • Biploty – zobrazujú pozorovania aj znaky ma jednom grafe, ktorého súradnicové osi tvoria zvolené komponenty. Umožňujú tak lepšiu interpretáciu podielu pôvodných znakov na komponenty. • Detekcia odľahlých pozorovaní v údajoch je možná na základe zobrazenia pozorovaní na priemete hlavného komponentu

úlohy metódy podmienky použitia Princíp metódy , jej podstata Výsledky, interpretácia numerických a grafických výstupov aplikácie PCA –nauč sa:

Analýza hlavných komponentov

Analýza hlavných komponentov

Presentation Transcript

painful anal conditions

Financn anal za

HPV and Anal Dysplasia Leads to Anal Cancer

Anal za firmy Bratislava, 24.11.2006

Projekt a anal za riz k

Anal za vody II

Marketingov anal za trhu a marketingov strategie

Korelacn a regresn anal za

Anal za n kladu a pr nosu Cost-Benefit Analysis CBA

Anal Cancer

V znam proteolysy za fysiologick ch a patologick ch stavu

ANAL ZA A POPIS PRACOVN HO M STA Profesiogram

ANAL FISSURE

Anal Cancer

Anal Sacculectomy

Anal Cancer

ANALÝZA HLAVNÝCH KOMPONENTOV

Anal ysis

ETAPA ANAL

Anal cancer

Anal cancer

Anal. Chem. BICEA.