ZHLUKOVANIE

ZHLUKOVANIE doc. Ing. Kristína Machová, CSc. kristina.machova@tuke.sk people.tuke.sk/kristina.machova/

OSNOVA: • Definícia problému zhlukovania • Iteratívne zhlukovanie • K-centier a divízne k-centier • Konceptuálne zhlukovanie • Algoritmus CLUSTER/2 • Hierarchické zhlukovanie - neinkrementálne • Aglomeratívna zhlukovacia stratégia • Hierarchické zhlukovanie - inkrementálne • COBWEB • Užitočnosť zhluku • Pravdepodobnostné zhlukovanie • Diskusia

DEFINÍCIA PROBLÉMU ZHLUKOVANIA • Je to učenie nekontrolovaného typu. • Trénovacie príklady sa združujú do zhlukov podľa štandardu kvality (maximalizácia podobnosti). • Počet zhlukov môže a nemusí byť známy dopredu. • Predikcia atribútov zhluku je určenie hodnôt atribútov, ktoré sú typické pre daný zhluk. • Možnosť predikcie atribútov závisí od spôsobu popisu zhluku.

DEFINÍCIA PROBLÉMU ZHLUKOVANIA Spôsoby popisu zhluku: • ENUMERÁCIOU vymenovaním TP patriacich do zhluku • obtiažne je zaradenie nového TP do zhluku. Obtiažna je • predikcia atribútov zhluku (štatistické miery). • ETALÓNOM Atribúty zhluku sú predikované podľa eta- • lónu. Nový TP je zaradený do zhluku najbližšieho etalónu. • DISTRIBÚCIOU PRAVDEPODOBNOSTI. Predikované • sú hodnoty atribútov s najväčšou pravdepodobnosťou. • Nový TP sa zaradí do najpravdepodobnejšieho zhluku. • SÚBOROM PODMIENOK nutných a postačujúcich. Atribúty sú predikované podmienkami(konceptuálne zhlukovanie). Nový TP sa zaradí do zhluku, ktorého definíciu, resp. podmienky spĺňa.

DEFINÍCIA PROBLÉMU ZHLUKOVANIA Spôsoby reprezentácie výsledkov zhlukovania: • Zhluky sú disjunktné. TP môže byť zaradený iba do • jedného zhluku. • Zhluky sa prekrývajú. TP môže byť zaradený do • viacerých zhlukov. • Zhluky sú pravdepodobnostné. TP prináleží ku každému • zhluku s určitou pravdepodobnosťou. • Zhluky sú hierarchické. TP je zaradený najprv do zhluku • na najvyššej úrovni a potom do všetkých zhlukov cestou • dolu v hierarchii až po úroveň individuálnych príkladov.

DEFINÍCIA PROBLÉMU ZHLUKOVANIA Typy zhlukovania: • Zhlukovanie založené na vzdialenosti (iterative distance • based clustering). • Konceptuálne zhlukovanie (conceptual clustering). • Využíva algoritmy SU. Príkladom je CLUSTER/2. • Hierarchické zhlukovanie(hierarchicalclustering). • Typickí reprezentanti sú: COBWEB pre nominálne • atribúty a CLASSIT pre numerické atribúty. • Pravdepodobnostné zhlukovanie(probability-based • clustering). TP sú zatrieďovanie pravdepodobnostne • nie deterministicky.

DEFINÍCIA PROBLÉMU ZHLUKOVANIA Hierarchické zhlukovanie má dva podtypy: • Aglomeratívne- vychádza sa z jednotlivých objektov • (samostatných zhlukov), ktoré sa spájajú až • po jedinný konečný zhluk. • Divízne – vychádza sa z jediného zhluku, ktorý sa • rozdeľuje až po najnižšiu úroveň (každý zhluk je objekt). • Z hľadiska počítačového spracovania: • Paralelné zhlukovanie(neinkrementálne) • Sekvenčné zhlukovanie (inkrementálne)

ITERATÍVNE ZHLUKOVANIE • Je to typ zhlukovania založený na vzdialenosti. • Najstarší prístup – numerické taxanomické zhlukovanie • (numerické atribúty, TP je vektor obsahujúci N nume- • rických hodnôt, TP je bod N dimenzionálnom priestore). • Miera podobnosti: euklidovská, kosínusová,... • k-centier (k-means) • Divízne k-centier (Bisectingk-means)

K-CENTIER (K-MEANS) • MacQueen (1967) • Zhluky sa formujú okolo určených príkladov – centier. • Majme „n“ objektovX= {x1,…,xn} • a „k“ zhlukov Y = {y1,…,yk}. • Centrum zhlukuvypočítame: • Algoritmus minimalizuje chybovú funkciu (funkcia „dist“ • je ľubovoľná metrika):

K-CENTIER (K-MEANS) • Algoritmus pracuje v štyroch krokoch: • Inicializácia zhlukov – k náhodne vybratých objektov. • Priradenie objektov k najbližšiemu zhluku (v zmysle • minimalizácie vzdialenosti, maximalizácie podobnosti). • Výpočet nových centier zhlukov • Ukončovacia podmienka: • Bol dosiahnutý daný počet iterácií • Chybová funkcia je menšia ako zvolený prah

K-CENTIER (K-MEANS) • Jednoduchá obľúbená zhlukovacia technika: • Jednoduchá a obľúbená zhlukovacia technika. • Väčšinou dáva dobré výsledky (spracovanie textových • dokumentov). • Riziko padnutia do lokálneho minima • (náhodná inicializácia centier). • Nutnosť stanovenia hodnoty k. • Citlivosť na zmeny súradníc • (závisí na type použitého váhovania).

DIVÍZNE K-CENTIER BISECTINGS (K-MEANS) • Rozširuje k-means o divízne zhlukovanie (Kashef-Kamel) • Zvolený zhluk sa vždy delí na dva (bi-sekcia) • Začína sa jedným zhlukom a postupuje v štyroch krokoch: • Výber zhluku na delenie • Nájdenie dvoch sub-zhlukov (bi-sekčný krok, k-means) • Opakovanie 2. kroku • UP – dosiahnutý požadovaný počet zhlukov • Deliť sa bude: najväčší zhluk alebo zhluk • s najmenšou celkovou podobnosťou. • Celková podobnosť – minimálna entropia alebo • maximálna kompatibilita zhluku.

KONCEPTUÁLNE ZHLUKOVANIE • S uvedenými problémami sa lepšie vysporadúva • konceptuálne zhlukovanie: • Používa algoritmy SU na generovanie všeobecných • definícií pojmov. • Používa znalosti okolia pri formovaní zhlukov. • Príkladom tohto prístupu je algoritmus CLUSTER/2. • CLUSTER/2 bol navrhnutý Michalským a Steppom • roku 1983. • Formuje K zhlukov okolo K jadrových TP. • Parameter K udáva používateľ.

CLUSTER/2 • Je náročný na strojový čas (niekedy vyžaduje veľké • množstvo iterácií). Pracuje neinkrementálne • v nasledovných krokoch: • Vyber náhodne K jadier z trénovacích príkladov • Pre každé jadro generuj maximálne všeobecnú • definíciu zhluku. Jadro definície je pozitívny TP • ostatné jadrá sú negatívne TP. • Klasifikuj všetky TP podľa generovaných popisov • zhlukov. Nahraď každý maximálne všeobecný • popis zhluku maximálne špecifickým. • Zhluky sa stále môžu prekrývať. Vyvolaj • podprogram pre úpravu prekrývajúcich sa definícií.

CLUSTER/2 • Vyber nové jadrá bližšie k centru nového zhluku • použitím vzdialenostnej metriky. • S novými jadrami opakuj kroky 1 až 5. • Zhlukovanie končí, keď sú zhluky definované • uspokojivo. Metrikou kvality je komplexnosť • všeobecného popisu zhluku. • Inak: AK zhluky nie sú definované uspokojivo a ani • po niekoľkých iteráciách nie je • viditeľné zlepšenie • POTOM vyber nové jadrá bližšie k okraju • zhluku a opakuj kroky 1 až 5.

CLUSTER/2

HIERARCHICKÉ ZHLUKOVANIE – NEINKREMENTÁLNE • Formuje hierarchický strom. • Od začiatku učenia sú známe všetky • trénovacie príklady. • Príkladom je Aglomeratívnazhlukovacia stratégia • (formuje binárny strom). • Rozlišuje stupne členstva (žiadne nutné a postačujúce • podmienky ako v konceptuálnom zhlukovaní).

AGLOMERATÍVNA ZHLUKOVACIA STRATÉGIA • Vyskúšajú sa všetky páry TP. Vyberú sa páry s najvyšším • stupňom podobnosti. Vytvoria sa z nich zhluky. • Definujú sa atribúty každého zhluku (aritmetický priemer). • TP sa nahradia svojou zhlukovacou definíciou. • Proces sa opakuje, kým všetky TP nie sú redukované • do jedinného zhluku. • Výsledkom algoritmu je binárny strom. Otázkou ostáva • ako merať podobnosť symbolických hodnôt TP. Napr. ako • pomer počtu zhodných hodnôt atribútov ku počtu všetkých.

AGLOMERATÍVNA ZHLUKOVACIA STRATÉGIA • Diskusia: • Zhlukovanie založené na podobnosti nevystihuje úlohu • sémantických znalostí. • Podobnostné metriky narábajú so všetkými atribútmi • rovnako. Avšak v zhlukoch nemajú všetky atribúty • rovnakú váhu. • Ľudské kategórie sú viac závislé na cieli zhlukovania • a kvalite apriórnych znalostí domény. • Zhlukovanie založené na podobnosti nerozlišuje • stupne príslušnosti ku kategórii.

HIERARCHICKÉ ZHLUKOVANIE – INKREMENTÁLNE • Formuje hierarchický strom, ktorý sa aktualizuje • po príchode každého nového príkladu. • Príkladom je algoritmus COBWEB • Realizuje divízny prístup. • Aktualizácia: nájde sa pravé miesto v strome na • zaradenie nového TP • alebo je strom reštrukturalizovaný. • Kľúčové je vyčíslenie užitočnosti zhluku. • Rozlišuje stupne členstva (žiadne nutné a postačujúce • podmienky ako v konceptuálnom zhlukovaní).

COBWEB • Bol navrhnutý Fisherom roku 1987. • Nielen generuje zhluky, ale aj stanovuje potrebný • počet zhlukov. • Vytvára taktiež hierarchiu týchto zhlukov. • Príliš rozsiahly hierarchický strom je možné orezať (cutoff) • Keď príde nový TP, buď ho zaradí do existujúceho zhluku, • vytvorí preň nový zhluk alebo modifikuje hierarchiu. • Pod modifikáciou hierarchie rozumieme: • Spojenie dvoch zhlukov a zaradenie nového TP do spojenia. • Rozdelenie zhluku a zaradenie nového TP do jedného • z nových zhlukov.

COBWEB • Inicializuje generovanie hierarchie • vytvorením jedného zhluku – prvý TP. • Každý nový príklad sa premiestňuje pozdĺž stromu • od koreňa smerom dole. • Na každej úrovni použije vypočítanú užitočnosť zhluku • na rozhodnutie, ktorý z nasledujúcich krokov sa vykoná: • Umiestni nový TP do najlepšieho existujúceho zhluku. • Utvorí nový zhluk, obsahujúci iba nový TP. • Spojí (merging) dva existujúce zhluky a pridá nový TP. • Rozdelí (splitting) existujúci zhluk a nový TP • umiestni do lepšieho z vytvorených zhlukov.

COBWEB (ilustračný príklad)

COBWEB(Uzol,Priklad) begin if Uzol je listový then begin generuj dvoch potomkov Uzla, L1 a L2 nech sa pravdepodobnosti L1 rovnajú pravdepodobnostiam obsiahnutým v Uzle nech sa pravdepodobnosti L2 rovnajú pravdepodobnostiam nového Príkladu pridaj Príklad k Uzlu aktualizáciou pravdepodobností obsiahnutých v Uzle end else begin pridaj Príklad k Uzlu aktualizáciou pravdepodobnosti Uzla pre každého potomka P Uzla vypočítaj užitočnosť zhluku, ktorý vznikne umiestnením Príkladu do P nech S1 je skóre pre najlepšiu kategorizáciu do zhluku C1 nech S2 je skóre pre druhú najlepšiu kategorizáciu do zhluku C2 nech S3 je skóre pre umiestnenie Príkladu do nového zhluku nech S4 je skóre pre zlúčenie C1 a C2 do jedného zhluku nech S5 je skóre pre rozdelenie C1 (nahradenie dcérskymi zhlukmi) end COBWEB

COBWEB if S1 je najlepšie skóre then COBWEB(C1,Príklad) if S2 je najlepšie skóre then COBWEB(C2,Príklad) else if S3 je najlepšie skóre then nový zhluk bude mať pravdepodobnosti nového príkladu else if S4 je najlepšie skóre then begin nech Cm je výsledok spojenia C1 a C2 COBWEB(Cm,Príklad) end else if S5 je najlepšie skóre then begin rozdeľ C1 COBWEB(Uzol,Príklad) end end

UŽITOČNOSŤ ZHLUKU predpovedateľnosť p(ai=vij/ck) je pravdepodobnosť, že trénovací príklad má hodnotu vij atribútu ai ak patrí do zhluku ck. Čím je táto pravdepodobnosť vyššia, tým skôr budú mať dva príklady v tej istej kategórii resp. zhluku tie isté hodnoty atribútov. prediktívnosť p(ck/ai=vij) je pravdepodobnosť, s ktorou trénovací príklad patrí do kategórie ck, ak má hodnoty vij atribútov ai. Čím vyššia je táto pravdepodobnosť, tým menej platí, že príklady iných zhlukov budú mať rovnaké hodnoty atribútov. váha p(ai=vij) zabezpečuje, že hodnoty atribútov, ktoré sa častejšie vyskytujú, budú mať silnejší vplyv na ohodnotenie kvality.

PRAVDEPODOBNOSTNÉ ZHLUKOVANIE • Každý TP má priradenú množinu pravdepodobností, • s ktorými prináleží ku každému zhluku. • Príkladom tohto prístupu je pravdepodobnostný • model nazývaný finite mixtures – množina distribúcií • pravdepodobností, odpovedajúca N zhlukom. • Je to pravdepodobnosť, že TP bude mať určitú množinu • hodnôt atribútov, ak bude členom daného zhluku. • Najjednoduchšia FM, ak máme jeden numerický atribút, • ktorý má dve distribúcie pre dva zhluky. • Každý zhluk má svoju strednú hodnotu a odchýlku.

PRAVDEPODOBNOSTNÉ ZHLUKOVANIE Zhluk A má strednú hodnotu μA=50 a štandardnú odchýlku δA=5, zatiaľ čo zhluk B má μB=65 a δB=2.

PRAVDEPODOBNOSTNÉ ZHLUKOVANIE Máme dané údaje t.j. trénovacie príklady bez udania zhlukov, teda samotné čísla. Našou úlohou bude určiť päť parametrov, ktoré charakterizujú model: μA, δA, μB, δB, a pA (pB je možné vypočítať z pA). Použijeme vzťahy: Ak poznáme týchto päť parametrov, je ľahké nájsť pravdepodobnosti s ktorými daný príklad patrí do každého zhluku. Napríklad, pravdepodobnosť, že príklad x prináleží ku zhluku A je:

DISKUSIA • Problémom pravdepodobnostného zhlukovania • je, že nepoznáme vyžadované delenie do zhlukov. • Preto musíme začať iným zhlukovacím algoritmom • napríklad CLUSTER/2. • Ak zhlukovacia metóda bola použitá na označkovanie TP, • číslo zhluku môže zastúpiť číslo triedy a daná • trénovacia množina sa môže použiť v niektorom • klasifikačnom algoritme (stromy,...). • Ďalšou možnou aplikáciou zhlukovania je doplnenie • chýbajúcej hodnoty atribútu TP. Vykoná sa • štatistický odhad hodnoty atribútu v rámci zhluku, • do ktorého TP patrí.

ZHLUKOVANIE

ZHLUKOVANIE

Presentation Transcript

Hierarchické zhlukovanie sietí na webe

Diplomový projekt: Hierarchické zhlukovanie sietí na webe