200 likes | 320 Views
Analýza pomocou zhlukovania. Michal Raček Peter Kmeť . Štruktúra prezentácie. Úvod ku klasickému zhlukovaniu a popis jeho vlastností Ozrejmenie použitia fuzzy zhlukovania(FZ) Stručné poznámky k teórii zhlukovania Popis konkrétnych algoritmov - FCM algoritmus
E N D
Analýza pomocou zhlukovania Michal Raček Peter Kmeť Analýza fuzzy zhlukovania
Štruktúra prezentácie • Úvod ku klasickému zhlukovaniu a popis jeho vlastností • Ozrejmenie použitia fuzzy zhlukovania(FZ) • Stručné poznámky k teórii zhlukovania • Popis konkrétnych algoritmov - FCM algoritmus - Subtraktívne zhlukovanie • Príklady použitia FZ Analýza fuzzy zhlukovania
Čo je zhlukovanie • Zgrupovanie dát, objavovanie štruktúr v dátach • ak máme objekty so známymi vlastnosťami a potrebujeme ich na základe ich podobnosti klasifikovať • Úlohou metód zhlukovania je vhodne číselne vyjadriť vlastnosti objektov a zoskupiť podobné objekty do zhlukov. Analýza fuzzy zhlukovania
Klasické zhlukovanie Objekty sú popísané pomocou znakov • Znaky objektov môžu nadobúdať 3 základné typy: • i) kvantitatívne: hodnota znaku vyjadruje množstvo. (pr. číslo patriace do spočítateľnej či nespočítateľnejmnožiny) • ii) kvalitatívne: hodnota znaku jez konečnej množiny možných stavov (pr. aj disjunktné intervaly) • iii) binárne: objekt má/nemá požadovanú vlastnosť Analýza fuzzy zhlukovania
Kedy a prečo použiť FZ • V praxi sa často vyskytujú objekty, ktoré nie je možné popísať vyššie uvedenými typmi znakov. Takýto objekt obsahuje znak, ktorého hodnoty nie je možné presne definovať (tj. existuje znak objektu, ktorý môže súčasne obsahovať viac hodnôt, alebo pre daný znak existuje „neurčitosť", „vágnosť" vo vyjadrení hodnôt tohoto znaku). Potom klasické zhlukovanie nie je možné aplikovať priamo na takéto typy objektov. Analýza fuzzy zhlukovania
Kedy a prečo použiť FZ • V klasickom zhlukovaní:„vágnej" hodnote znaku priradíme hodnotu, ktorá najlepšie vystihuje daný znak objektu. • výberom jednej hodnoty, strácame informáciu, ktorá je obsiahnutá vo „vágnosti" a ktorá môže mať na výsledok zhlukovania vplyv. Analýza fuzzy zhlukovania
Kedy a prečo použiť FZ • „vágny" popis hodnôt znakov sa najviac približuje ľudskému uvažovaniu • Použitie: tam kde sa snažíme nahradiť ľudský vplyv na riešení problémov • Najlepší popis neurčitosti je pomocou fuzzy množín • Fuzzy zhlukovanie zovšeobecňuje všetky zhlukovacie metódy tým, že umožňuje zhlukovanie jedného objektu do viac než jedného zhluku Analýza fuzzy zhlukovania
Teória zhlukovania • dva objekty sú si podobné, keď majú niektoré vlastnosti rovnaké • Podobnosť môžeme určiť napr. koeficientom podobnosti: Pi – objekt, Vi - množina vlastností i-teho objektu • Zhluk - množina objektov, kdep(P1,P2)>prah Analýza fuzzy zhlukovania
Určenie príznakov • Všetky zhlukované objekty sú popísané príznakmi tej istej množiny • V príznakovom priestore je objekt reprezentovaný bodom • Objekty sú fuzzy, ak jeden, alebo viac príznakov sú popísané fuzzy výrazmi Analýza fuzzy zhlukovania
HCM algoritmus • lokalizuje zhlukyv mnohorozmernompríznakovom priestore • patrí do triedy algoritmov s učiteľom (supervised) • Postup: • Manuálne označiť ‘c‘ centrá zhlukov pre algoritmus, jedno centrum pre každý zhluk, ktorý hľadáme. Toto požaduje predošlé informácie z vonkajšieho sveta o počte rozdielnych zhlukov do ktorých budú body rozdelené • Každý bod je priradený do zhluku podľa toho, ku ktorému centru zhluku je najbližšie. • Nové centrum zhluku je vypočítané pre každú triedu vzatím priemerných hodnôt koordinátov bodov ktoré sú mu priradené. • Ak neskončí v zhode s nejakou zastavovacou podmienkou, choď na krok 2. Analýza fuzzy zhlukovania
Vylepšenia HCM • doplnkové pravidlá, pre odstránenie potreby poznať presne koľko sa tam nachádza zhlukov. Pravidlá dovoľujú susedným zhlukom spájanie a zhluky ktoré majú široké štandardné odchýlky v koordinátoch dovoľujú delenie. • zhluky sú ‘crisp’ (ostré) • dáta príznakov musia byť normalizované správne pre vzdialenostné porovnávanie Analýza fuzzy zhlukovania
Postup HCM algoritmu • Inicializuj centrá zhlukov ci (i = 1, 2, ...., c). To je typicky dosiahnuté náhodne selektovaním c bodov z bodov dát. • Urči maticu susednosti M pomocou • Vypočítaj funkciu vhodnosti • Aktualizuj centrá zhlukov podľa • Choď na krok 2. Analýza fuzzy zhlukovania
Vlastnosti HCM algoritmu • Iteratívny • Negarantuje nájdenie optimálneho riešenia • Správanie silno závislé na výbere počiatočných centier • je odporúčané použiť nejakú metódu na nájdenie dobrých počiatočných centier zhlukov Analýza fuzzy zhlukovania
FCM algoritmus • Fuzzifikovaný c-means algoritmus(Bezdek 1997) • dovoľuje každému bodu aby patril zhluku podľa stupňa špecifikovaného stupňom príslušnosti • Rovnako ako HCM alg. Minimalizuje funkciu J • rozdiel:používa fuzzy delenie (fuzzy partitioning)každý bod môže patriť niekoľkým zhlukom • matica príslušnosti M má dovolené obsahovať prvky v rozsahu [0, 1] • V matici M: -súčet každého stĺpca je jedna - súčet všetkých elementov je rovný počtu vš. bodov Analýza fuzzy zhlukovania
Postup FCM algoritmu • Inicializácia M náhodnými hodnotami medzi 0 a 1 v rámci ohraničení matice. • Vypočíta c centrá zhlukov ci(i = 1,2 ...., c) • Vypočíta funkciu vhodnosti. Zastaví sa ak je buď pod určitým stupňom prahu, alebo jej nárast od predchádzajúcej interácie je pod istou toleranciou. • Vypočítaj novú maticu M • Choď na krok 2. Analýza fuzzy zhlukovania
Príklad použitia FCM alg. • Dostávame sa späť k problému modelovania testovacích dát z predchádzajúceho príkladu, dáta boli preložené do FCM funkcie pomocou Matlab Fuzzy Logic Toolbox-u. Okrem požiadavky troch zhlukov, boli všetky ostatné nastavenia predvolené (default), našla tri centrá zhlukov. • na indikáciu kam umiestniť vrcholy troch fuzzy funkcií príslušnosti na vstupnú os Analýza fuzzy zhlukovania
Subtraktívnezhlukovanie (subtractive clustering) • nekontrolovaný (unsupervised) algoritmus • je založený na porovnávaní hustoty dátových bodov v príznakovom priestore • Bod s najväčším počtom susedov – centrum • Dátové body vo vnútri predšpecifikovaného fuzzy polomeru sú potom odstránené (substraktované) a algoritmus hľadá nový bod s najvyšším počtom susedov. To pokračuje pokým všetky dátové body niesú prehľadané. Analýza fuzzy zhlukovania
Postup algoritmu • Nech K je počet dátových bodov a uk m-rozmerný vektor – objekt Meranie hustoty v tomto bode : ra – konštanta Iba fuzzy susedstvo vo vnútri polomeru raprispieva k Dk. Vďalšom, výpočet hustoty: Analýza fuzzy zhlukovania
Postup algoritmu • dátové body blízko prvého centra zhluku uc1 budú mať podstatne redukovanú hustotu • Preto sa vyberie ďalšie centrum zhluku • Proces je opakovaný pokým nieje vygenerovaný dostatočný počet zhlukov. • Konštanta rb sa vyberá väčšia ako ra; zvyčajne rb =1,5* ra Analýza fuzzy zhlukovania
Použitie FZ • ako stratégia učenia bez učiteľa v nahliadnutí na zgrupovanie dát • pre zostavovanie fuzzy if – then pravidiel pre dáta • analýza obrazu a rozpoznávanie • detekcia špeciálnych geometrických tvarov, ako sú kruhy a elipsy • Konštrukcia trojdimenzionálneho obrazu tváre z dvojdimenziálneho obrazu Analýza fuzzy zhlukovania