Shlukovací algoritmy založené na vzorkování

Shlukovací algoritmy založené na vzorkování Marta Žambochová Katedra matematiky a statistiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem 3.– 5. června 2012 Nové Hrady

Motivace • Potřeba metod pro analýzu dat velkých datových souborů • Minimalizace počtu průchodů celým datovým souborem • Výběr vzorku dat

Algoritmy využívající ke vzorkování stromy • CLARANS (pro velké datové soubory)(Clustering Large Application based on RANdomized Search) • BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) • SCAHIPAT (Spatial Clustering Algorithm Based on Hierarchical-Partition Tree)

3 8 29 43 1 2 4 6 7 9 15 26 30 35 40 CLARANS (pro velké soubory) • R*- stromy

CLARANS • náhodný výběr k medoidů • přiřazení zbývajících objektů k jim nejbližšímu medoidu • náhodný výběr jednoho zástupce z medoidů a náhodný výběr jednoho z objektů zkoumaného souboru, který není medoidem • zjištění, zda by záměnou těchto dvou objektů došlo ke zlepšení • pokud by ke zlepšení došlo, provede záměnu

BIRCH • CF - stromy

BIRCH • vytvoření CF-stromu postupným zařazením datových objektů • kondenzace vytvořeného CF-stromu a optimalizace jeho velikosti • shlukování listových vrcholů pomocí aglomerativního hierarchického algoritmu shlukování • (přerozdělení objektů k jejich nejbližším centrům, a tím získání nového složení shluků)

SCAHIPAT • H-P stromy (Hierarchical-Partition Tree)

SCAHIPAT • vytvoření H-P stromu • výpočet statistik (hustota, hranice) pro každou podmnožinu • spojování vhodných podmnožin • vyřazení objektů, které jsou podezřelé z odlehlosti

Algoritmy nevyužívající ke vzorkování stromy • BIRCH k-průměrů • FEKM (Fast and Exact K-Means)

BIRCH k-průměrů • Shluky (skupiny) objektů • Upravená varianta algoritmu BIRCH • Nevytváří CF-strom • Uspořádaná trojice údajů (m, q, b), kde m je velikost daného shluku, q je kvalita daného shluku (součet druhých mocnin vzdáleností centroidu od všech objektů ve shluku) a b je centroid shluku

FEKM • Náhodný výběr • Postup zpracování: • Prvotní vytvoření přiměřeně velkého výběrového souboru z původního souboru dat • V rámci tohoto souboru jsou vytvořeny shluky pomocí klasického algoritmu k-průměrů • V každé iteraci se zaznamená všech k center a k nim popisné statistiky • V druhé fázi algoritmus prochází celý datový soubor • Každý datový objekt se přiřadí do určitého shluku (k nejbližšímu centru) • Problém chybného zařazení do shluku se týká především objektů ležících na okraji shluků • Ve třetí fázi se algoritmus zabývá podezřelými okrajovými body, které odhalila a uložila předchozí fáze • Provádí se přepočet s využitím uložených statistik popisujících každý jednotlivý shluk a podezřelých okrajových objektů. • Pokud existuje přepočtené centrum, které je od původního více vzdálené, než předem zadaná kritická hodnota, vrací se algoritmus do druhé fáze a probíhá opětovný průchod celým datovým souborem

Shrnutí • Nevýhoda většina zmíněných algoritmů =vzorkování přináší zhoršenou kvalitu shlukování • Nevýhoda algoritmu FEKM =malý počet průchodů celým souborem pouze ve výjimečných případech, závisí na prvotním vzorku dat • Bylo by možné zkombinovat některý z uvedených algoritmů s algoritmem FEKM tak, aby bylo dosaženo lepších výsledků?

Shlukovací algoritmy založené na vzorkování

Shlukovací algoritmy založené na vzorkování

Presentation Transcript

TLS ve Windows

Algoritmy – jejich tvorba

Trademarking retrieval

Úprava fotografie na počítači

Vladimír Dostál 4.c

Z ákladní algoritmy Prologu

R óbert Novotný robert.novotny@upjs.sk 28. 9. 2006

ALGORITMY

Pedagogika Marie Montessori

Algoritmy zpracování textů II

Tem. celok: Algoritmy a programovanie Téma: Práca s myšou

Kompresní algoritmy

Čo znamená

Ekonomická univerzita v Bratislave

Zpracování informací a znalostí Datové struktury a algoritmy pro vyhledávání informací

Algoritmy pre hľadanie sekundárnej štruktúry RNA reťazcov, vizualizácia sekundárnej štruktúry

Algoritmy a datové struktury

OPTIMALIZACE KLASTRŮ EVOLUČNÍMI ALGORITMY

The Wheel of Fortune

Grafové algoritmy

Statistická analýza

Cach ban hang tren Zalo