1 / 46

Faktor- és főkomponensanalízis

Faktor- és főkomponensanalízis. Gazdaságinformatikus MSc. Adatredukció. Olyan statisztikai módszerek tartoznak ide, melyek lehe- tővé teszik, hogy az adatmátrix méretét csökkentve kisebb költséggel értékelhessük ki a statisztikai sokaságot. A redukált adatmennyiségből levont statisztikai

Download Presentation

Faktor- és főkomponensanalízis

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Faktor- és főkomponensanalízis Gazdaságinformatikus MSc

  2. Adatredukció Olyan statisztikai módszerek tartoznak ide, melyek lehe- tővé teszik, hogy az adatmátrix méretét csökkentve kisebb költséggel értékelhessük ki a statisztikai sokaságot. A redukált adatmennyiségből levont statisztikai következtetések érvényesek maradnak az eredeti statisztikai sokaságra is. A csökkentés vonatkozhat az esetszám csökkentésére és a változók számának a csökkentésére egyaránt. • Klaszteranalízis • Ritkítás véletlenszám generálással • Faktoranalízis • Főkomponens-analízis • Többdimenziós skálázás (MDS) Dr Ketskeméty László előadása

  3. A faktoranalízis problematikája • Nagyszámú, sztochasztikusan erősen összefüggő változónk • van. A változók redundáns információt hordoznak. • Ismeretlen, kisszámú faktorváltozót keresünk. • Hogyan lehet a változók által közösen magyarázott • információt korrelálatlan faktorokkal kifejezni? • A faktorok milyen mértékben magyarázzák az eredeti • változókat? • Mely változók vannak ugyanazokkal a faktorokkal • kifejezve? • Hogyan lehet ezek alapján a változóinkat csoportosítani? • Mi lehet az egyes faktorok jelentése? Dr Ketskeméty László előadása

  4. A VÁLTOZÓK KÖZÖTTI ÖSSZEFÜGGÉS EREJÉNEK MÉRÉSE parciális korrelációs együttható Kaiser-Meyer-Olkin mérték korrelációs együttható Dr Ketskeméty László előadása

  5. A VÁLTOZÓK KÖZÖTTI ÖSSZEFÜGGÉS EREJÉNEK MÉRÉSE measure of sampling adequacy Az indulási p db változóból azokat érdemes elhagyni, amelyeknél az MSAi érték a legkisebb. Elvégezhető még a Bartlett-féle gömb próba. Itt az a nullhipotézis, hogy a vizsgált változók függetlenek egymástól. Akkor érdemes továbbmenni, ha ez a próba nem szignifikáns! Dr Ketskeméty László előadása

  6. A k-FAKTOROS MODELL Adottak az változók, a belőlük alkotott p-dimenziós vektor . pxk-as átviteli mátrix k-dimenziós közös faktor-vektor p-dimenziós egyedi faktor-vektor várható érték vektor Dr Ketskeméty László előadása

  7. páronként korrelálatlanok , páronként korrelálatlanok , páronként korrelálatlanok: és A k-FAKTOROS MODELL FELTÉTELEI Dr Ketskeméty László előadása

  8. A k-FAKTOROS MODELL FELTÉTELEI Egy k-faktoros modell pontosan akkor oldható meg, ha kovarianciamátrixa Aluldefiniált esetben különböző módon adhatunk meg kényszerfeltételeket, amelyek más-más eredményhez (átviteli mátrixhoz) vezethetnek! Ezek közül a legjobban magyarázható megoldást fogjuk választani. kovarianciamátrixa Van p(p+1)/2 egyenlet, és p(k+1) ismeretlen (p+1)/2 > k+1 esetben az egyenletrendszer túldefiniált (p+1)/2 < k+1 esetben az egyenletrendszer aluldefiniált • Maximum likelyhood módszer • Főkomponens-analízis • A legkisebb négyzetek módszere : Dr Ketskeméty László előadása

  9. A k-FAKTOROS MODELL KOORDINÁNTÁNKÉNT F koordinátái mindegyik Xielőállításában szerepelnek U koordinátái közül csak Ui szerepel Xielőállításában Az Xivarianciája Az egyedi variancia A kummuláns Ez az arány azt fejezi ki, hány %-ot magyaráznak a közös faktorok. Dr Ketskeméty László előadása

  10. A FAKTOROK FORGATÁSA (ROTÁCIÓ) Az új átviteli mátrix Az új faktorvektor G ügyes megválasztásával a modell jobban magyarázható lesz! azon változók száma kevés lesz, melyekhez sok faktor szerepel nagy súllyal • Varimax a magyarázó faktorok számát minimalizálja • Quartimax • Equamax a két eljárás keverékét végzi Dr Ketskeméty László előadása

  11. 1 0 1 -1 0 +1 A FAKTOROK FORGATÁSA (ROTÁCIÓ) A rotáció szemléltetése egy egyszerű kétdimenziós példán: a Az eredeti változók a és b csoportja a rotáció nélkül kapott mindkét faktoron jelentős faktorsúllyal rendelkezik. b Dr Ketskeméty László előadása

  12. 1 0 -1 -1 0 +1 A FAKTOROK FORGATÁSA (ROTÁCIÓ) A rotáció szemléltetése egy egyszerű kétdimenziós példán: Az eredeti változók a csoportja csak a rotációval kapott egyik, a b csoport pedig csak a másik faktoron rendelkezik jelentős faktorsúllyal. a b Dr Ketskeméty László előadása

  13. Főkomponensanalízis A faktoranalízis speciális esete. Dimenziószám csökkentésre használható. Az eredetileg p változóval jellemzett statisztikai sokaságot k<<p változóval (főkomponensekkel) jellemezzük. A k-dimenziós statisztikai elemzések következtetései a p-dimenziós sokaságra is érvényesek lesznek. Ezzel jelentős költséget lehet megtakarítani. Lehetőség van a p>3 dimenziós sokaságot (ha k<4) pontfelhő grafikonon szemléltetni. A főkomponensek terében a változók korrelálatlanok lesznek. A főkomponens-transzformáció:  a főkomponens-vektor a főirányok mátrixa Dr Ketskeméty László előadása

  14. A FŐKOMPONENS-MODELL TULAJDONSÁGAI • A főkomponensek korrelálatlanok: A főkomponensek csökkenő jelentőségűek: F1 magyaráz a legtöbbet, F2a második legtöbbet,..., Fp magyaráz a legkevesebbet T-ből. • A főkomponensek csökkenő súlyúak: • A faktorsúlyok összege a totális variancia: megmutatja, hány %-ot magyaráz Fi Dr Ketskeméty László előadása

  15. A FŐKOMPONENS-MODELL TULAJDONSÁGAI • A főírányok jelentése: ebben az irányban a legnagyobb a variancia ebben az irányban a legnagyobb a variancia a g1 irányra merőleges irányok között • Dimenziócsökkentés: Ha X helyett az első k főfaktor-alkotta vektorral számolunk, az elvesztett információ csupán: Dr Ketskeméty László előadása

  16. Watanabe-tétele Belátható, hogyha p dimenziót lecsökkentünk k<p dimenzióra, akkor az összes lehetséges dimenziócsökkentési eljárással összevetve, a főkomponens analízissel végrehajtott dimenziócsökkentés minimalizálja az információ-veszteséget! Az eredeti változók totális varianciája és a k főfaktor totális varianciája van egymáshoz a legközelebb! Ezt az optimális arányt fejezi ki a kovariancia-mátrix sajátértékeiből számítható arány, amely jó esetben közel esik 1-hez: Dr Ketskeméty László előadása

  17. FŐKOMPONENSANALÍZIS Tengelyek nem derékszögeket zárnak be: a változók korreláltak! 3. irány 1. irány 2. irány Dr Ketskeméty László előadása

  18. FŐKOMPONENSANALÍZIS Ebben az irányban tudunk legjobban differenciálni a pontok között. A főkomponensek hosszát (fontosságát) az ún. sajátértékkel (eigenvalue) jellemezzük, ami az értelmezett variancia. Megkeressük a „pontfelhő” leghosszabb tengelyét első főkomponens 3. irány 1. irány 2. irány Dr Ketskeméty László előadása

  19. FŐKOMPONENSANALÍZIS Az eljárást folytatni lehetne a harmadik főkomponens megkeresésével, de ennek a konkrét esetben már nincs értelme, mivel ebben az irányban már jelentéktelen a szóródás az adatok leírására 2 dimenzió elegendő! Most az első főkomponensre merőlegesen keressük meg a leghosszabb tengelyt  második főkomponens 3. irány 1. irány 2. irány Dr Ketskeméty László előadása

  20. Példa a faktoranalízisre I. Megvizsgáljuk, milyen kapcsolat van a world 95 állomány változói között! Dr Ketskeméty László előadása

  21. Dr Ketskeméty László előadása

  22. Dr Ketskeméty László előadása

  23. Dr Ketskeméty László előadása

  24. Dr Ketskeméty László előadása

  25. Dr Ketskeméty László előadása

  26. Factor Analysis Dr Ketskeméty László előadása

  27. A KMO statisztika „dicséretes” ! A Bartlett-féle függetlenségi teszt is sikertelen! Dr Ketskeméty László előadása

  28. A kummunalitás értékének százszorosa azt mutatja, hogy az egyes változók varianciáit a faktorok hány százalékban tudnak „megmagyarázni”. A kis kummunalitású változók „lógnak ki” leginkább a faktortérből. Ha ezeket elhagyjuk, a maradék változókra jobb faktorelemzés adható. Dr Ketskeméty László előadása

  29. Négy faktorral majdnem 80%-os a magyarázhatóság, azaz 13 dimenziót 4-re lecsökkentve, „csak” az információ 20%-át veszítettük el! Dr Ketskeméty László előadása

  30. Az egyes főkomponensek fontosságának csökkenését mutatja a „könyök-ábra”. Esetünkben az első négy főkomponenst tartottuk meg. Dr Ketskeméty László előadása

  31. Ez a táblázat mutatja az átviteli mátrixot. Leolvasható, hogy az egyes változók előállításában a faktorok milyen súlyokkal vesznek részt. Dr Ketskeméty László előadása

  32. Az elforgatás után a jobban értelmezhető modellt kapunk. Ez segít a faktorok értelmezésében, és a változók kapcsolat-rendszerének feltárásában egyaránt. A varimax elforgatás után keletkezett átviteli-mátrix táblázata. Dr Ketskeméty László előadása

  33. Az első három főkomponens által kifeszített térben a változóink átlagvektorait megjelenítve képet kaphatunk arról, hogy az egyes változók egymáshoz képest a térben hogyan helyezkednek el. Az elforgatás ortogonális mátrixa Dr Ketskeméty László előadása

  34. Az adatmátrixba új változóként elmentettük a főkomponens vektorokat Dr Ketskeméty László előadása

  35. Az első három főkomponenssel az egyes országokat is ábrázolhatjuk egy 3-D ábrán. A pontokat a gazdasági régió szerint színeztük meg. Ez segíthet a faktorok értelmezésében is. Dr Ketskeméty László előadása

  36. Példa a faktoranalízisre II. Milyen kapcsolat van a gépkocsik jellemzői között? Dr Ketskeméty László előadása

  37. Dr Ketskeméty László előadása

  38. Factor Analysis Kaptunk egy figyelmeztetést, hogy csak egyetlen dimenziót tartottunk meg a beállításkor, tehát a 2-D és 3-D ábrák nem készülhetnek el. Dr Ketskeméty László előadása

  39. A gyorsulás eléggé kilóg a faktortérből, csupán 45%-os a magyarázhatóság esetében. Csupán közepes a változók közötti összefüggés, viszont a Bartlett-féle függetlenségi próba sikertelen volt, azaz erős az összefüggés a változók között. Dr Ketskeméty László előadása

  40. Az első főkomponens az információ több mint 77%-át magyarázza. Viszont az első két főfaktor már 91% feletti magyarázó erőt képvisel! Az első főkomponens az információ több mint 77%-át magyarázza. Dr Ketskeméty László előadása

  41. Dr Ketskeméty László előadása

  42. Dr Ketskeméty László előadása

  43. Dr Ketskeméty László előadása

  44. A gyorsulás és a fogyasztás messze esik a másik három változótól a két főfaktor által kifeszített rendszerben! Dr Ketskeméty László előadása

  45. A gépkocsik megjeleníthetők a két főfaktor terében. A gyártóhelyek szerint megszínezve a pontokat látható, hogy egyes amerikai autók „elszakadnak” a többitől. Dr Ketskeméty László előadása

  46. Ha a hengerek száma szerint is kiszínezzük az ábrát, láthatjuk, hogy az elkülönült csoport az amerikai 8 hengeres autóknak felel meg! Dr Ketskeméty László előadása

More Related