1 / 27

ZHLUKOVÁ ANALÝZA

ZHLUKOVÁ ANALÝZA. C luster A nalysis. Zhluková analýza. Okruhy, ktorým budeme venovať pozornosť: Úvod do problematiky Miery podobnosti Výber druhu zhlukovacieho postupu Výber zhlukovacej metódy Určenie počtu významných zhlukov Ilustratívny príklad v SAS EG. Zhluková analýza.

tavita
Download Presentation

ZHLUKOVÁ ANALÝZA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ZHLUKOVÁ ANALÝZA ClusterAnalysis

  2. Zhluková analýza Okruhy, ktorým budeme venovať pozornosť: • Úvod do problematiky • Miery podobnosti • Výber druhu zhlukovacieho postupu • Výber zhlukovacej metódy • Určenie počtu významných zhlukov • Ilustratívny príklad v SAS EG

  3. Zhluková analýza • Skupina metód, ktorých cieľom je rozklad súboru objektov na niekoľko relatívne rovnorodých podmnožín (zhlukov) tak, aby objekty patriace do rovnakého zhluku si boli „čo najviac“ podobné, zatiaľ čo objekty pochádzajúce z rôznych zhlukov majú byť „čo najviac“ nepodobné. • Každý objekt je popísaný skupinou znakov. Úloha ZA: • Zaradiť objekty do tried • Definovať (popísať) vzniknuté triedy ZA – neparametrická metóda – nekladie požiadavky ani na tvar, ani na typ rozdelenia.

  4. Formulácia úlohy ZA • Je daný súbor n-objektov pričom každý objekt je charakterizovaný p znakmi • Množinu všetkých pozorovaní predstavuje matica X rozmeru nxp • Úloha ZA spočíva v rozklade matice X na množinu S=S1, S2, ...., Sm (m=počet zhlukov), do ktorých sú zoskupené objekty xj.

  5. Viacrozmerné metódy premenné P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 PR 1 2 3 4 5 n Klasifikačné metódy

  6. Postup ZA • výber miery podobnosti(resp. nepodobnosti) objektov • výber druhu zhlukovacieho postupu • výber zhlukovacej metódy • určenie počtuvýznamných zhlukov • interpretáciazhlukov

  7. Miery podobnosti Podobnosť medzi objektami je možné vyjadriť cez: • miery podobnosti • koeficienty asociácie – nominálne údaje • Spearmanov koeficient poradovej korelácie – ordinálne údaje • Korelačný koeficient – kardinálne údaje • miery nepodobnosti • vzdialenosti – nezáporné reálne funkcie d(XY)

  8. Miery vzdialenosti medzi objektami Vlastnosti: • Pozitivita d (X, Y)  0 d (X, Y)=0 ak X = Y • Symetria d (X, Y) = d (Y, X) • Trojuholníková nerovnosť d (X, Y)  d (X, Z) + d (Y, Z)

  9. Euklidovská vzdialenosť • Najčastejšie používaná. Xik – hodnota k-tej premennej u i-teho objektu Xik – hodnota k-tej premennej u j-teho objektu • Predpokladá nekorelovanosť premenných. • Je závislá na merných jednotkách – odstrániť cez štandardizáciu.

  10. Hammingova vzdialenosť • Definovaná nasledovne: Xik – hodnota k-tej premennej u i-teho objektu Xik – hodnota k-tej premennej u j-teho objektu

  11. Prehľad mier vzdialenosti • Euklidovská vzdialenosť Dij= (xik- xjk)2 • Hammingova vzdialenosť Dij= |xik- xjk| • Minkovskeho vzdialenosť Dij= (|xik- xjk|r) 1/r • Mahalanobisova vzdialenosť Dij= (Xi – Xj)' .S-1.(Xi – Xj)

  12. Prehľad zhlukovacích procedúr

  13. Zhlukovacie procedúry • výber druhu zhlukovacieho postupu • hierarchický postup • dochádza k rozdeľovaniu, resp. spájaniu na každom kroku • cieľom je nájdenie dynamickej štruktúry v množine všetkých objektov, ktorá by ukazovala ako sa jednotlivé podobné objekty spájajú do väčších celkov. • hierarchické metódy = dynamické metódy zhlukovania • výsledok možno zobraziť pomocou hierarchického grafu - dendrogramu • aglomeratívny • postup, ktorý spočíva v spájaní objektov • v prvom kroku je každá jednotka samostatným zhlukom • v poslednom kroku sú všetky jednotky v jednom zhluku • vytvárame aglomeratívny hierarchický strom • divízny • opačný postup – postupné delenie celého súboru • v prvom kroku sú všetky jednotky v jednom zhluku • v poslednom kroku každá jednotka predstavuje zhluk • vytvárame divízny hierarchický strom

  14. Zhluková analýza • výber druhu zhlukovacieho postupu • nehierarchický postup • vopred určený počet zhlukov • iteratívny postup určenia ich stredov • postupné zaraďovanie jednotiek k vybraným stredom • paralelné - iteračný postup – v každom iteračnom kroku dochádza k preklasifikovaniu všetkých objektov • určené k zhlukovaniu menšieho počtu objektov • sekvenčné - iteračnýpostup – v každom iteračnom kroku dochádza k preklasifikovaniu len určitej časti objektov • určené k zhlukovaniu veľkého počtu objektov

  15. Všeobecný hierarchický zhlukovací postup • Vypočítame maticu D vhodných mier vzdialeností. • Začneme zhlukovací proces od n zhlukov, z ktorých každý obsahuje jeden objekt. • Prezrieme maticu D a nájdeme dva zhluky Sha Sh’, ktorých vzdialenosť dij je minimálna. • Spojíme zhluk Sha Sh’ do nového q-teho zhluku. V matici D vynecháme riadok a stĺpec reprezentujúci vzdialenosť zhlukov Sha Sh’ a nahradíme ho novým reprezentujúcim ich spoločnú vzdialenosť od ostatných zhlukov podľa typu zvolenej metódy. Rozmer matice sa zníži o 1. • Postup opakujeme od kroku 3, až kým nedôjde k spojeniu všetkých objektov do jedného zhluku.

  16. Miery vzdialenosti medzi zhlukmi • Metóda najbližšieho suseda (nearestneighbour, SINGLE) • Najstaršia metóda • Vychádzame z matice euklidovských vzdialeností • Do jedného zhluku sa spoja tie objekty, medzi ktorými je min. vzdialenosť, resp. do jedného zhluku sa spoja tie zhluky, medzi ktorými je minimálna vzdialenosť medzi ich najbližšími prvkami. • Nevýhoda - zreťazovanie

  17. Miery vzdialenosti medzi zhlukmi • Metóda najvzdialenejšieho suseda (furtrestneighbour, COMPLETE) • Vychádzame z matice euklidovských vzdialeností • Do jedného zhluku sa spoja tie zhluky, medzi ktorými je minimálna vzdialenosť medzi ich najvzdialenejšími prvkami. • Vytvárame konzistentné pomerne izolované zhluky

  18. Miery vzdialenosti medzi zhlukmi • Metóda priemernej vzdialenosti (averagelinkagemethod, AVERAGE) • Kompromis medzi predchádzajúcimi dvomi metódami • Do jedného zhluku sa spoja tie zhluky, medzi ktorými je minimálna priemerná vzdialenosť. • Vytvárame konzistentné pomerne izolované zhluky

  19. Miery vzdialenosti medzi zhlukmi • Wardova metóda (Wardmethod, WARD) • V praxi najpoužívanejšia. • Nevychádzame zo vzdialenosti, zhluky sa formujú maximalizáciou vnútrozhlukovej homogenity. • Metóda vedie k vytvoreniu zhlukov relatívne rovnakej veľkosti, má tendenciu odstraňovať malé zhluky.

  20. Miery vzdialenosti medzi zhlukmi • Centroidná metóda (centroidmethod, CENTROID) • Vychádzame zo štvorca euklidovskej vzdialenosti • Je založená na vzdialenosti priemerov (ťažísk, centroidov). • Do jedného zhluku sa spoja tie dva zhluky, medzi ktorými je minimálna vzdialenosť ich ťažísk. • Mediánová metóda (medianmethod, MEDIAN) • Vylepšenie centroidnej metódy. • Vychádzame zo štvorca euklidovskej vzdialenosti • Je založená na vzdialenosti ťažísk, centroidov. • Ťažisko sa vypočíta ako medián. • Do jedného zhluku sa spoja tie dva zhluky, medzi ktorými je minimálna vzdialenosť ich ťažísk.

  21. Miery vzdialenosti medzi zhlukmi • k-means • Iteračný postup • Existuje viacero modifikácií • Základná schéma zhlukovania • Výber k začiatočných zhlukovýchcentroidov (k-je počet apriórne určených zhlukov) • Zaradenie každého objektu do zhlukov, ku ktorému je najbližšie • Znovuzaradenie každého objektu do jedného z k zhlukov podľa určitého pravidla • Ukončenie zhlukovania, ak určité pravidlo dosahuje požadované kritérium.

  22. Určenie počtu významných zhlukov • heuristický prístup - určenie počtu zhlukov na základe subjektívneho názoru. • Index grapovanie – optimálny počet je taký, že krok pred ním dochádza k maximálnej strate informácií

  23. Určenie počtu významných zhlukov • ukazovatele kvality zhlukovania v SAS • Štandardná odchýlka premenných tvoriacich zhluk (RMSSTD), - vyjadruje vnútroskupinovú variabilitu daného zhluku. Nižšia hodnota znamená nižšiu variabilitu, t.j. vyššiu homogenitu daného zhluku. • Koeficient determinácie (RSQ), - vyjadruje pomer medziskupinovej sumy štvorcov odchýlok k celkovej sume štvorcov odchýlok. Vyššia hodnota znamená väčšiu medziskupinovú variabilitu , t.j. väčšie rozdiely medzi skupinami – homogénnejšie skupiny

  24. Určenie počtu významných zhlukov • ukazovatele kvality zhlukovania • Semiparciálnykoeficient determinácie (SPRSQ), - vyjadruje pomer vnútroskupinovej variability (1) mínus vnútroskupinová variabilita (2) k celkovej variabilite. - nízke hodnoty znamenajú, že boli spojené podobné skupiny • Vzdialenosť zhlukov (CD) - výpočet danej charakteristiky závisí od použitej metódy zhlukovania, napr. pri metóde najvzdialenejšieho suseda sa vypočíta ako maximálna euklidovská vzdialenosť medzi všetkými možnými pármi skupín. - nízke hodnoty signalizujú, že boli spojené podobné zhluky.

  25. Určenie počtu významných zhlukov • ukazovatele kvality zhlukovania • CCC kritérium (cubicclusteringcriterion), - predpokladom použitia tohto kritéria je rovnomerné rozloženie jednotlivých objektov do zhluku. Pri hodnotení pomocou CCC by mali byť splnené nasledovné kritériá: • Vhodný počet zhlukov indikuje CCC>3, vo všeobecnosti, čím vyššie je CCC, tým lepší počet zhlukov získame. • Pri hierarchickom postupe zhlukovania možno pozorovať niekoľko lokálnych, vysokých hodnôt CCC. Pri nehierarchickom zhlukovaní je pozorované veľmi odlišné globálne maximum CCC v závislosti od počiatočného určenia počtu zhlukov. • Pri zošikmených rozdeleniach môže hodnota CCC nadobúdať zápornú hodnotu, pričom s počtom zhlukov jej hodnota ešte klesá. • Pre dáta s nepravidelným tvarom alebo pre predĺžené skupiny objektov, CCC nie je vhodným kritériom na stanovenie počtu zhlukov.

  26. Interpretácia zhlukov • dendrogram • grafická analýza – prezentované charakteristiky RMSSTD, RSQ, SPRSQ, CD – hladáme bod zlomu k určeniu optimálneho počtu zhlukov • popisná štatistika • hodnotiaca miera je zhlukovýcentroid (ťažisko zhluku) podľa jednotlivých premenných • popis každého zhluku na základe sledovaných vlastností napr. podľa metód viackriteriálneho hodnotenia

  27. Dendrogram Dendrogram - na horizontálnejosi sú zobrazené vzdialenostimedziobjektami a na vertikálnejosi sú objekty . Čím dlhšie sú v stromovom grafe horizontálne úsečky, tým väčšie sú rozdielymedziobjektami.

More Related