310 likes | 634 Views
ZHLUKOVÁ ANALÝZA. C luster A nalysis. Zhluková analýza. Okruhy, ktorým budeme venovať pozornosť: Úvod do problematiky Miery podobnosti Výber druhu zhlukovacieho postupu Výber zhlukovacej metódy Určenie počtu významných zhlukov Ilustratívny príklad v SAS EG. Zhluková analýza.
E N D
ZHLUKOVÁ ANALÝZA ClusterAnalysis
Zhluková analýza Okruhy, ktorým budeme venovať pozornosť: • Úvod do problematiky • Miery podobnosti • Výber druhu zhlukovacieho postupu • Výber zhlukovacej metódy • Určenie počtu významných zhlukov • Ilustratívny príklad v SAS EG
Zhluková analýza • Skupina metód, ktorých cieľom je rozklad súboru objektov na niekoľko relatívne rovnorodých podmnožín (zhlukov) tak, aby objekty patriace do rovnakého zhluku si boli „čo najviac“ podobné, zatiaľ čo objekty pochádzajúce z rôznych zhlukov majú byť „čo najviac“ nepodobné. • Každý objekt je popísaný skupinou znakov. Úloha ZA: • Zaradiť objekty do tried • Definovať (popísať) vzniknuté triedy ZA – neparametrická metóda – nekladie požiadavky ani na tvar, ani na typ rozdelenia.
Formulácia úlohy ZA • Je daný súbor n-objektov pričom každý objekt je charakterizovaný p znakmi • Množinu všetkých pozorovaní predstavuje matica X rozmeru nxp • Úloha ZA spočíva v rozklade matice X na množinu S=S1, S2, ...., Sm (m=počet zhlukov), do ktorých sú zoskupené objekty xj.
Viacrozmerné metódy premenné P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 PR 1 2 3 4 5 n Klasifikačné metódy
Postup ZA • výber miery podobnosti(resp. nepodobnosti) objektov • výber druhu zhlukovacieho postupu • výber zhlukovacej metódy • určenie počtuvýznamných zhlukov • interpretáciazhlukov
Miery podobnosti Podobnosť medzi objektami je možné vyjadriť cez: • miery podobnosti • koeficienty asociácie – nominálne údaje • Spearmanov koeficient poradovej korelácie – ordinálne údaje • Korelačný koeficient – kardinálne údaje • miery nepodobnosti • vzdialenosti – nezáporné reálne funkcie d(XY)
Miery vzdialenosti medzi objektami Vlastnosti: • Pozitivita d (X, Y) 0 d (X, Y)=0 ak X = Y • Symetria d (X, Y) = d (Y, X) • Trojuholníková nerovnosť d (X, Y) d (X, Z) + d (Y, Z)
Euklidovská vzdialenosť • Najčastejšie používaná. Xik – hodnota k-tej premennej u i-teho objektu Xik – hodnota k-tej premennej u j-teho objektu • Predpokladá nekorelovanosť premenných. • Je závislá na merných jednotkách – odstrániť cez štandardizáciu.
Hammingova vzdialenosť • Definovaná nasledovne: Xik – hodnota k-tej premennej u i-teho objektu Xik – hodnota k-tej premennej u j-teho objektu
Prehľad mier vzdialenosti • Euklidovská vzdialenosť Dij= (xik- xjk)2 • Hammingova vzdialenosť Dij= |xik- xjk| • Minkovskeho vzdialenosť Dij= (|xik- xjk|r) 1/r • Mahalanobisova vzdialenosť Dij= (Xi – Xj)' .S-1.(Xi – Xj)
Zhlukovacie procedúry • výber druhu zhlukovacieho postupu • hierarchický postup • dochádza k rozdeľovaniu, resp. spájaniu na každom kroku • cieľom je nájdenie dynamickej štruktúry v množine všetkých objektov, ktorá by ukazovala ako sa jednotlivé podobné objekty spájajú do väčších celkov. • hierarchické metódy = dynamické metódy zhlukovania • výsledok možno zobraziť pomocou hierarchického grafu - dendrogramu • aglomeratívny • postup, ktorý spočíva v spájaní objektov • v prvom kroku je každá jednotka samostatným zhlukom • v poslednom kroku sú všetky jednotky v jednom zhluku • vytvárame aglomeratívny hierarchický strom • divízny • opačný postup – postupné delenie celého súboru • v prvom kroku sú všetky jednotky v jednom zhluku • v poslednom kroku každá jednotka predstavuje zhluk • vytvárame divízny hierarchický strom
Zhluková analýza • výber druhu zhlukovacieho postupu • nehierarchický postup • vopred určený počet zhlukov • iteratívny postup určenia ich stredov • postupné zaraďovanie jednotiek k vybraným stredom • paralelné - iteračný postup – v každom iteračnom kroku dochádza k preklasifikovaniu všetkých objektov • určené k zhlukovaniu menšieho počtu objektov • sekvenčné - iteračnýpostup – v každom iteračnom kroku dochádza k preklasifikovaniu len určitej časti objektov • určené k zhlukovaniu veľkého počtu objektov
Všeobecný hierarchický zhlukovací postup • Vypočítame maticu D vhodných mier vzdialeností. • Začneme zhlukovací proces od n zhlukov, z ktorých každý obsahuje jeden objekt. • Prezrieme maticu D a nájdeme dva zhluky Sha Sh’, ktorých vzdialenosť dij je minimálna. • Spojíme zhluk Sha Sh’ do nového q-teho zhluku. V matici D vynecháme riadok a stĺpec reprezentujúci vzdialenosť zhlukov Sha Sh’ a nahradíme ho novým reprezentujúcim ich spoločnú vzdialenosť od ostatných zhlukov podľa typu zvolenej metódy. Rozmer matice sa zníži o 1. • Postup opakujeme od kroku 3, až kým nedôjde k spojeniu všetkých objektov do jedného zhluku.
Miery vzdialenosti medzi zhlukmi • Metóda najbližšieho suseda (nearestneighbour, SINGLE) • Najstaršia metóda • Vychádzame z matice euklidovských vzdialeností • Do jedného zhluku sa spoja tie objekty, medzi ktorými je min. vzdialenosť, resp. do jedného zhluku sa spoja tie zhluky, medzi ktorými je minimálna vzdialenosť medzi ich najbližšími prvkami. • Nevýhoda - zreťazovanie
Miery vzdialenosti medzi zhlukmi • Metóda najvzdialenejšieho suseda (furtrestneighbour, COMPLETE) • Vychádzame z matice euklidovských vzdialeností • Do jedného zhluku sa spoja tie zhluky, medzi ktorými je minimálna vzdialenosť medzi ich najvzdialenejšími prvkami. • Vytvárame konzistentné pomerne izolované zhluky
Miery vzdialenosti medzi zhlukmi • Metóda priemernej vzdialenosti (averagelinkagemethod, AVERAGE) • Kompromis medzi predchádzajúcimi dvomi metódami • Do jedného zhluku sa spoja tie zhluky, medzi ktorými je minimálna priemerná vzdialenosť. • Vytvárame konzistentné pomerne izolované zhluky
Miery vzdialenosti medzi zhlukmi • Wardova metóda (Wardmethod, WARD) • V praxi najpoužívanejšia. • Nevychádzame zo vzdialenosti, zhluky sa formujú maximalizáciou vnútrozhlukovej homogenity. • Metóda vedie k vytvoreniu zhlukov relatívne rovnakej veľkosti, má tendenciu odstraňovať malé zhluky.
Miery vzdialenosti medzi zhlukmi • Centroidná metóda (centroidmethod, CENTROID) • Vychádzame zo štvorca euklidovskej vzdialenosti • Je založená na vzdialenosti priemerov (ťažísk, centroidov). • Do jedného zhluku sa spoja tie dva zhluky, medzi ktorými je minimálna vzdialenosť ich ťažísk. • Mediánová metóda (medianmethod, MEDIAN) • Vylepšenie centroidnej metódy. • Vychádzame zo štvorca euklidovskej vzdialenosti • Je založená na vzdialenosti ťažísk, centroidov. • Ťažisko sa vypočíta ako medián. • Do jedného zhluku sa spoja tie dva zhluky, medzi ktorými je minimálna vzdialenosť ich ťažísk.
Miery vzdialenosti medzi zhlukmi • k-means • Iteračný postup • Existuje viacero modifikácií • Základná schéma zhlukovania • Výber k začiatočných zhlukovýchcentroidov (k-je počet apriórne určených zhlukov) • Zaradenie každého objektu do zhlukov, ku ktorému je najbližšie • Znovuzaradenie každého objektu do jedného z k zhlukov podľa určitého pravidla • Ukončenie zhlukovania, ak určité pravidlo dosahuje požadované kritérium.
Určenie počtu významných zhlukov • heuristický prístup - určenie počtu zhlukov na základe subjektívneho názoru. • Index grapovanie – optimálny počet je taký, že krok pred ním dochádza k maximálnej strate informácií
Určenie počtu významných zhlukov • ukazovatele kvality zhlukovania v SAS • Štandardná odchýlka premenných tvoriacich zhluk (RMSSTD), - vyjadruje vnútroskupinovú variabilitu daného zhluku. Nižšia hodnota znamená nižšiu variabilitu, t.j. vyššiu homogenitu daného zhluku. • Koeficient determinácie (RSQ), - vyjadruje pomer medziskupinovej sumy štvorcov odchýlok k celkovej sume štvorcov odchýlok. Vyššia hodnota znamená väčšiu medziskupinovú variabilitu , t.j. väčšie rozdiely medzi skupinami – homogénnejšie skupiny
Určenie počtu významných zhlukov • ukazovatele kvality zhlukovania • Semiparciálnykoeficient determinácie (SPRSQ), - vyjadruje pomer vnútroskupinovej variability (1) mínus vnútroskupinová variabilita (2) k celkovej variabilite. - nízke hodnoty znamenajú, že boli spojené podobné skupiny • Vzdialenosť zhlukov (CD) - výpočet danej charakteristiky závisí od použitej metódy zhlukovania, napr. pri metóde najvzdialenejšieho suseda sa vypočíta ako maximálna euklidovská vzdialenosť medzi všetkými možnými pármi skupín. - nízke hodnoty signalizujú, že boli spojené podobné zhluky.
Určenie počtu významných zhlukov • ukazovatele kvality zhlukovania • CCC kritérium (cubicclusteringcriterion), - predpokladom použitia tohto kritéria je rovnomerné rozloženie jednotlivých objektov do zhluku. Pri hodnotení pomocou CCC by mali byť splnené nasledovné kritériá: • Vhodný počet zhlukov indikuje CCC>3, vo všeobecnosti, čím vyššie je CCC, tým lepší počet zhlukov získame. • Pri hierarchickom postupe zhlukovania možno pozorovať niekoľko lokálnych, vysokých hodnôt CCC. Pri nehierarchickom zhlukovaní je pozorované veľmi odlišné globálne maximum CCC v závislosti od počiatočného určenia počtu zhlukov. • Pri zošikmených rozdeleniach môže hodnota CCC nadobúdať zápornú hodnotu, pričom s počtom zhlukov jej hodnota ešte klesá. • Pre dáta s nepravidelným tvarom alebo pre predĺžené skupiny objektov, CCC nie je vhodným kritériom na stanovenie počtu zhlukov.
Interpretácia zhlukov • dendrogram • grafická analýza – prezentované charakteristiky RMSSTD, RSQ, SPRSQ, CD – hladáme bod zlomu k určeniu optimálneho počtu zhlukov • popisná štatistika • hodnotiaca miera je zhlukovýcentroid (ťažisko zhluku) podľa jednotlivých premenných • popis každého zhluku na základe sledovaných vlastností napr. podľa metód viackriteriálneho hodnotenia
Dendrogram Dendrogram - na horizontálnejosi sú zobrazené vzdialenostimedziobjektami a na vertikálnejosi sú objekty . Čím dlhšie sú v stromovom grafe horizontálne úsečky, tým väčšie sú rozdielymedziobjektami.