1 / 95

Klaszterezés

Klaszterezés. 2014. ápr. 3. Cluster Analysis: Basic Concepts and Algorithms. Lecture Notes for Chapter 8 Introduction to Data Mining by Tan, Steinbach, Kumar. Klaszterek közötti távolságok maximalizáltak. Klaszteren belüli távolságok minimalizáltak. Klaszterelemzés.

karli
Download Presentation

Klaszterezés

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Klaszterezés 2014. ápr. 3.

  2. Cluster Analysis: Basic Concepts and Algorithms Lecture Notes for Chapter 8 Introduction to Data Mining by Tan, Steinbach, Kumar

  3. Klaszterek közötti távolságok maximalizáltak Klaszteren belüli távolságok minimalizáltak Klaszterelemzés Az objektumok olyan csoportjainak megtalálása felügyelet nélküli tanulási keretben, hogy az egy csoportban levő objektumok hasonlóbbak lesznek egymáshoz, mint a más csoportban levőkhöz.

  4. Klaszterezés alkalmazásai Megértés • Csoportosítsuk a letöltött dokumentumokat, a hasonló tulajdonságú fehérjéket, a hasonló változásokat mutató tőzsdei papírokat

  5. Klaszterezés alkalmazásai Tömörítés • Nagy adathalmazok méretének csökkentése • egyes egyedek helyett klaszterreprezentánsok vagy • meta-jellemzők

  6. Hány klaszter? Hat klaszter Két klaszter Négy klaszter A klaszterezés nem egyértelmű

  7. A klaszterezés típusai • A klaszterezésklaszterek halmazát adja • Partícionáló klaszterezés Az adatok besorolása nem-átfedő részhalmazokba (klaszterekbe), minden elem pontosan egy részhalmazban • Hierarchikus klaszterezés Egymásba ágyazott klaszterek, hierarchikus rendszerbe szervezve

  8. Particionáló klaszterezés Particionáló klaszterezés Kiindulási pontok

  9. Hierarchikus klaszterezés Hierarchikus Klaszterek Dendrogram

  10. Klaszterezés fajtái • Kizárólagos – nem kizárólagos • Nem kizárólagosnál egy tárgy több osztályba is tartozhat • Fuzzy, nem-fuzzy • A fuzzy klaszterezésnél minden pont valamilyen 0 és 1 közötti súllyal tartozik minden klaszterhez • A súlyok összege 1 • Részleges, teljes • Néha nem minden pontot akarunk klaszterezni • Heterogén, homogén • A klaszterek különböző méretűek, alakúak, sűrűségűek lehetnek

  11. Mitől jó egy klaszterezés? • Jól elválasztott klaszterek • Középpont alapú klaszterek • Folytonos klaszterek • Sűrűség alapú klaszterek • Általános eset: célfüggvény

  12. Jól elválasztott klaszterek • Egy klaszter olyan pontokból áll, amelyek közelebb vannak (hasonlóbbak) a saját klaszteren belüli összes ponthoz, mint a többi klaszterben levőkhöz 3 jól elválasztott klaszter

  13. Középpont alapú klaszterek • Egy klaszterben levő pontok közelebb vannak saját klaszterük középpontjához, mint bármely más klaszter középpontjához • A klaszterek középpontja gyakran a centroid, vagyis a klaszterbeli pontok átlaga, vagy a medoid, a klaszter egy reprezentatív pontja 4 középpont alapú klaszter

  14. Folytonosság • legközelebbi szomszéd, tranzitív • Egy klaszterbeli pont közelebb van a saját klaszterének valamely pontjához, mint a nem klaszterbeli más pontokhoz 8 folytonos klaszter

  15. Sűrűség alapú • A klaszterek pontok nagy sűrűségű halmazai, amelyek kis sűrűségű pontokkal vannak elválasztva • Szabálytalan alakú, egymásba fonódó esetekben használhatjuk, zaj és kiugró értékek mellett 6 sűrűség alapú klaszter

  16. Általános eset:Célfüggvény alapú klaszterezés • Valamilyen célfüggvény minimalizálnak vagy maximalizálnak • pl: modularitás • Általában az összes lehetőséget számba kellene venniük és mindegyik jóságát meg kellene határozni a célfüggvény segítségével (NP nehéz) • Lokális és globális optimum lehet • A hierarchikus módszereknél általában lokális optimum • Particionálóknál általában globális • Nagyon sok esetben parametrizált modellt próbálunk az adatokhoz illeszteni • A paramétereket az adatokból határozzuk meg

  17. Az input adatok jellemzői fontosak • A hasonlóság vagy sűrűség függvény • Leszármaztatott, de alapvető fontosságú • Ritkaság • A hasonlósági mértéket meghatározhatja • Segítheti a hatékonyságot • Attribútum típus • Meghatározhatja a hasonlóságot • Dimenzionalitás • Zaj és kiugró értékek • Eloszlás típusa

  18. k-közép klaszterező

  19. K-közép klaszterezés • Particionáló eljárás • centroid: klaszter közepe • Egy pontot ahhoz a klaszterhez csatolunk, amely centroidja a legközelebb van hozzá • A klaszterek száma, K, előre definiálandó

  20. K-közép algoritmus - részletek • A kezdőpontokat gyakran véletlenszerűen választjuk • Újabb futtatásnál más eredményt kaphatunk • A centroid általában a klaszterekhez tartozó pontok átlaga • A közelséget mérhetjük euklideszi távolsággal, koszinusz távolsággal, korrelációval, … • A K-közép eljárás a fenti mértékeknél konvergálni fog egy megoldáshoz • A legtöbb esetben az első néhány lépésben megtörténik a konvergencia • A megállási kritériumot gyakran: amikor már csak kevés pont helyzete változik-ra cserélik

  21. Optimális klaszterezés Sub-optimális klaszterezés Két különböző K-közép klaszterezés

  22. Kezdeti középpontok jó választása

  23. Kezdeti középpontok rossz választása

  24. A kezdőpontok választásának problémái • Ha a „valódi” klaszterek száma K nagy, úgy nagyon kicsi az esélye annak, hogy mindegyikből egy kezdőpontot választunk • tfh a klaszterekben azonos számú elem van (n): • Pl. K = 10 mellett a valószínűség = 10!/1010 = 0.00036 • Néha a kezdő középpontok korrigálni tudják magukat, néha nem

  25. Az „5 pár klaszter” példa Minden pár egyik elemében választott kezdőpontok

  26. Az „5 pár klaszter” példa Néhány párban 3 kezdőérték, néhánynál csak egy

  27. Megoldások az előző problémára • Többszörös futtatás • Hogyan átlagoljuk őket? • Segíthet néha • Használjunk hierarchikus klaszterezést a kezdőpontok meghatározására • Több, mint k kezdőpont választása, majd azokból további választás • Pl. a legközelebbi kezdőpontpárok összevonása

  28. Klaszterezések összevetése • Négyzetes távolság(Sum of Squared Error, SSE) • minden pontra a legközelebbi középponttól való távolság • SSE definíciója: • x aCiklaszterben van, mia Ciklasztert reprezentáló pont • Ha adott két klaszterezésünk, a kisebb hibájút választjuk • Az SSE általában csökken K növelésével…

  29. Üres klaszterek kezelése • A K-közép algoritmus pont nélküli centroidokat („üres klaszter”) adhat…

  30. Üres klaszterek kezelése • Lehetséges stratégiák: • Az SSE-hez a legjobban hozzájáruló pontba tesszük a pontnélküli centroidot • Abból a klaszterből válasszunk pontot centroidnak, amelyiknek a legnagyobb az SSE-je • Ha több üres klaszter van, ismételjük meg az előzőeket többször

  31. A középpontok lépésenkénti aktualizálása • A K-közép algoritmusnál a középpontokat akkor aktualizáljuk, ha az összes pont hozzárendelése megtörtént • Alternatív módszer, ha minden egyes lépés (hozzárendelés) után aktualizáljuk a középpontokat • Minden hozzárendelés nulla vagy két középpontot érint • Költségesebb • Sorrendtől függőséget vezet be • Sosem ad üres klasztert

  32. A K-közép korlátai • K-középnek akkor vannak problémái, ha a klaszterek nagyon különböznek • Méretben • Sűrűségben • Nem gömbszerű alakúak vagy ha sok kiugró érték van

  33. A K-közép korlátai : különböző méretek K-közép (3 klaszter) Eredeti pontok

  34. A K-közép korlátai : különböző sűrűség K-közép (3 klaszter) Eredeti pontok

  35. A K-közép korlátai : Nem gömbszerű Eredeti pontok K-közép (2 klaszter)

  36. Elő- és utófeldolgozás • Előfeldolgozás • Normalizálás • Kiugró értékek kiszűrése • Utófeldolgozás • Kis klaszterek kiszűrése (kiugró értékek?) • A laza klaszterek felosztása (nagy SSE értékek mellettiek) • Fésüljük össze a közeli, kis SSE-vel rendelkező klasztereket

  37. A K-közép korlátainak feloldása Eredeti pontok K-közép klaszterek Egy megoldás: sok klaszter keresése, majd a végén össze kell vonni őket.

  38. A K-közép korlátainak feloldása Eredeti pontok K-közép klaszterek

  39. A K-közép korlátainak feloldása Eredeti pontok K-közép klaszterek

  40. Hierarchikus klaszterezés

  41. Hierarchikus klaszterezés • Egymásba ágyazott klasztereket állít elő, ezek fába rendezhetők • Vizualizációs módszer: dendrogram • Egy olyan fa, amely az egyesítések sorrendjét adja meg

  42. Hierarchikus klaszterezés erősségei • Nem kell előzetesen feltételezni egy klaszterszámot • Tetszőleges számú klaszter kapható a dendogram megfelelő helyen történő vágásával

  43. Hierarchikus klaszterezés erősségei • Értelmes jelentést adhatunk neki • Pl. biológiában a filogenetikus fa:

  44. Hierarchikus klaszterezés • Két alaptípus • Agglomeratív (összevonó): • Kezdetben minden elem egy klaszter • Minden lépésben a két legközelebbi klasztert vonjuk össze • Divizív (felosztó): • Minden elem egy klaszterben van • Minden lépésnél valamelyik klasztert felbontjuk • A hagyományos hierarchikus módszerek hasonlósági vagy távolsági mátrixot használnak

  45. Összevonó klaszterezési eljárás • Az alapalgoritmus: • Compute the proximity matrix • Let each data point be a cluster • Repeat • Merge the two closest clusters • Update the proximity matrix • Until only a single cluster remains • A kulcsművelet két klaszter hasonlóságának számítása • Ezt különbözőképpen tehetjük meg, és ettől függően többféle változat van

  46. p1 p2 p3 p4 p5 . . . p1 p2 p3 p4 p5 . . . Kiindulási helyzet • Minden pont egy-egy külön klaszter, és adott a hasonlósági mátrix Proximity Matrix

  47. C1 C2 C3 C4 C5 C1 C2 C3 C4 C5 Közbülső helyzet • Néhány lépés után vannak klasztereink C3 C4 Proximity Matrix C1 C5 C2

  48. C1 C2 C3 C4 C5 C1 C2 C3 C4 C5 Közbülső állapot • A két legközelebbi (C2 és C5) klasztert szeretnénk összefésülni, és a mátrixot megfelelően módosítani C3 C4 Proximity Matrix C1 C5 C2

  49. Összefésülés után C2 U C5 C1 C3 C4 C1 ? ? ? ? ? C2 U C5 C3 C3 ? C4 ? C4 Proximity Matrix C1 C2 U C5

  50. p1 p2 p3 p4 p5 . . . p1 p2 p3 p4 p5 . . . Klaszterek közötti hasonlóság? Similarity? • MIN • MAX • Csoport átlag • Közepek közötti távolság • Célfüggvény által vezérelt módszerek • Ward módszere négyzetes hibával Proximity Matrix

More Related