1 / 13

Shlukovací algoritmy založené na vzorkování

Shlukovací algoritmy založené na vzorkování. Marta Žambochová Katedra matematiky a statistiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem 3.– 5. června 2012 Nové Hrady. Motivace. Potřeba metod pro analýzu dat velkých datových souborů

charis
Download Presentation

Shlukovací algoritmy založené na vzorkování

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Shlukovací algoritmy založené na vzorkování Marta Žambochová Katedra matematiky a statistiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem 3.– 5. června 2012 Nové Hrady

  2. Motivace • Potřeba metod pro analýzu dat velkých datových souborů • Minimalizace počtu průchodů celým datovým souborem • Výběr vzorku dat

  3. Algoritmy využívající ke vzorkování stromy • CLARANS (pro velké datové soubory)(Clustering Large Application based on RANdomized Search) • BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) • SCAHIPAT (Spatial Clustering Algorithm Based on Hierarchical-Partition Tree)

  4. 3 8 29 43 1 2 4 6 7 9 15 26 30 35 40 CLARANS (pro velké soubory) • R*- stromy

  5. CLARANS • náhodný výběr k medoidů • přiřazení zbývajících objektů k jim nejbližšímu medoidu • náhodný výběr jednoho zástupce z medoidů a náhodný výběr jednoho z objektů zkoumaného souboru, který není medoidem • zjištění, zda by záměnou těchto dvou objektů došlo ke zlepšení • pokud by ke zlepšení došlo, provede záměnu

  6. BIRCH • CF - stromy

  7. BIRCH • vytvoření CF-stromu postupným zařazením datových objektů • kondenzace vytvořeného CF-stromu a optimalizace jeho velikosti • shlukování listových vrcholů pomocí aglomerativního hierarchického algoritmu shlukování • (přerozdělení objektů k jejich nejbližším centrům, a tím získání nového složení shluků)

  8. SCAHIPAT • H-P stromy (Hierarchical-Partition Tree)

  9. SCAHIPAT • vytvoření H-P stromu • výpočet statistik (hustota, hranice) pro každou podmnožinu • spojování vhodných podmnožin • vyřazení objektů, které jsou podezřelé z odlehlosti

  10. Algoritmy nevyužívající ke vzorkování stromy • BIRCH k-průměrů • FEKM (Fast and Exact K-Means)

  11. BIRCH k-průměrů • Shluky (skupiny) objektů • Upravená varianta algoritmu BIRCH • Nevytváří CF-strom • Uspořádaná trojice údajů (m, q, b), kde m je velikost daného shluku, q je kvalita daného shluku (součet druhých mocnin vzdáleností centroidu od všech objektů ve shluku) a b je centroid shluku

  12. FEKM • Náhodný výběr • Postup zpracování: • Prvotní vytvoření přiměřeně velkého výběrového souboru z původního souboru dat • V rámci tohoto souboru jsou vytvořeny shluky pomocí klasického algoritmu k-průměrů • V každé iteraci se zaznamená všech k center a k nim popisné statistiky • V druhé fázi algoritmus prochází celý datový soubor • Každý datový objekt se přiřadí do určitého shluku (k nejbližšímu centru) • Problém chybného zařazení do shluku se týká především objektů ležících na okraji shluků • Ve třetí fázi se algoritmus zabývá podezřelými okrajovými body, které odhalila a uložila předchozí fáze • Provádí se přepočet s využitím uložených statistik popisujících každý jednotlivý shluk a podezřelých okrajových objektů. • Pokud existuje přepočtené centrum, které je od původního více vzdálené, než předem zadaná kritická hodnota, vrací se algoritmus do druhé fáze a probíhá opětovný průchod celým datovým souborem

  13. Shrnutí • Nevýhoda většina zmíněných algoritmů =vzorkování přináší zhoršenou kvalitu shlukování • Nevýhoda algoritmu FEKM =malý počet průchodů celým souborem pouze ve výjimečných případech, závisí na prvotním vzorku dat • Bylo by možné zkombinovat některý z uvedených algoritmů s algoritmem FEKM tak, aby bylo dosaženo lepších výsledků?

More Related