00:00

Overview of Clustering Algorithms in Knowledge Discovery

Clustering is a crucial step in Knowledge Discovery in Databases (KDD), involving grouping entities based on similarities. It can be hierarchical or non-hierarchical, with methods like centroid, nearest neighbor, farthest neighbor, average linkage, and Ward's method. Hierarchical methods create tree-like structures, while non-hierarchical methods organize objects into clusters without a tree structure. Both approaches have their advantages and disadvantages in handling different types of data.

cuendias
Download Presentation

Overview of Clustering Algorithms in Knowledge Discovery

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ZHLUKOVACIE ALGORITMY

  2. popis • Proces zaraďovaniakonkrétnych, čiabstraktných entítdo tried podľa rozličných vlastnostísanazývazhlukovanie. • Zhlukovanie je jedným z mnohých krokov (metód) v procese získavania znalostí z databáz(Knowledge Discovery in Databases, ďalejlen KDD). • Zhlukom sanazývaskupina entít(objektov), ktoré súsinavzájompodobné a zároveň sačonajviaclíšia od entít v iných zhlukoch. • Cieľom zhlukovania je možnosť posudzovaťjednotlivé entity ako časti zhluku a teda možnosť práce so zhlukom namiesto práce s množstvom entít[1].

  3. ROZDELENIE ZHLUKOVACÍCH METÓD Podľa spôsobu organizácie objektov na: • Hierarchické metódy (aglomeratívne a divízne metódy). • Nehierarchické metódy. Podľa spôsobu spracovania objektov na: • Paralelné metódy (tzv. off-line metódy). • Sekvenčné metódy (tzv. on-line metódy)

  4. Hierarchické zhlukovaciemetódy • Hierarchické zhlukovacie metódy vychádzajú z jednotlivých objektov (každý jeden objekt tvorí prvotný zhluk). • Ich spájaním sa v každom kroku počet zhlukov postupne zmenšuje až sa nakoniec všetky zhluky spoja do jedného celku (postup však môže byť aj opačný: z prvotného –všetky objekty zahŕňajúceho zhluku –sa postupne vydeľujú menšie a menšie zhluky, až po jednotlivé objekty). • Hierarchické metódy vedú k hierarchickej (stromovej) štruktúre, ktorá sa graficky zobrazuje ako stromový diagram – dendrogram • Objekty sú v dendrograme radené tak, aby bolo možné sledovať postupné spájanie objektov do zhlukov

  5. Medzi najznámejšie metódy hierarchickej zhlukovej analýzy patria: • Centroidná metóda (Centroid method): Táto metóda vychádza z euklidovských vzdialenosti medzi všetkými dvojicami jednotiek. • Následne sa nájde dvojica s najmenšou vzdialenosťou a vytvorí sa centroid, ktorého súradnice sa rovnajú priemeru hodnôt súradníc/vzdialeností jednotiek vytvarajúcichtento centroid. • Vzdialenosť medzi dvoma zhlukmi je potom definovaná ako priemer vzdialenosti medzi všetkými pármi centroidov v dvoch skupinách. • Teda centroid je vektor priemerov a každá súradnica je priemer príslušných súradníc objektov v zhluku. Ak ide o váženú metódu, ako váhy sa berú veľkosti zhlukov

  6. Metóda najbližšieho suseda (Nearest- neighboror single-linkagemethod): V tejto metóde je vzdialenosť medzi dvoma zhlukmi je určená vzdialenosť dvoch najbližších objektov (najbližší susedia) v rôznych skupinách. Toto pravidlo bude v istom zmysle, reťazec objekty dohromady vytvárajú zoskupenia a výsledné zoskupenia majú tendenciu predstavovať dlhé "reťazce."

  7. Metóda najvzdialenejšieho suseda (Farthestneighboror complete-linkage method): • V tejto metóde, sú vzdialenosti medzi zhlukmi, pri ktorých sa určí najväčšia vzdialenosť medzi dvoma objektmi, v rôznych skupinách (t.j. tým, že "najviac susedov"). • Táto metóda sa zvyčajne vykonáva dobre v prípadoch, keď objekty sú prirodzene odlišné "zhluky". • Ak klastre majú tendenciu byť nejako pretiahnuté, alebo "reťazec" typ povahy, potom je táto metóda nevhodná

  8. Priemerovámetóda (Average-linkage method). • je aglomeratívna (zlučovacia) hierarchická metóda. Jednotlivé objekty, respektíve zhluky, sú spájané na základe vzdialenosti D, ktorá je vyjadrená priemernou vzdialenosťou medzi objektmi z daných zhlukov. • Keďže na začiatku je každý objek vo svojom vlastnom zhluku, hodnota padametra D sa rovná nule. • Postupným zlučovaním zhlukov hodnota D narastá, pričom algoritmus sa snaží, aby je rart bol čo najpomalší. • Algoritmus končí v momente, keď D dosiahne určitú vopred definovanú hodnotu

  9. Wardovametóda (Ward`smethod) • minimálneho rozptylu je aglomeratívna (zlučovacia) hierarchická metóda. • Pri tejto metóde sa podobnosť objektov, respektíve zhlukov, meria ako suma štvorcov medzi objektmi z dvoch zhlukov, sčítaná cez všetky atribúty daných objektov. • Jedinečnosť tejto metódy spočíva v minimalizácii sumy rozptylov cez všetky novovytvorené zhluky

  10. Nehierarchické zhlukovaciemetódy • Nehierarchické zhlukovacie metódy organizujú analyzované objekty do nehierarchického systému zhlukov, ktorý vytvárajú sukcesívnym rozkladaním súboru objektov do množín. • Tieto rozklady sa postupne iteratívne zlepšujú, kým nie je dosiahnutý taký rozklad, že ďalšie zlepšenie už nie je možné. • Tieto metódy produkujú zhluky s definovanou vnútornou homogenitou, ktoré nie sú systematicky usporiadané. • Na rozdiel od hierarchických metód – nehierarchické zhlukovacie metódy nevytvárajú stromovú štruktúru.

  11. Nevýhoda nehierarchického zhlukovania • Menšou nevýhodou tejto metódy je, že najlepšie pracuje s intervalovými premennými, ktoré umožňujú nielen zaradenie pozorovaní do tried, ale aj kvantifikujú rozdiely medzi nimi. • Možno použiť aj nominálne premenné, ale musia mať dobré normálne rozdelenie. • Závažným problémom pri tomto spôsobe zhlukovania je existencia extrémnych hodnôt. pokiaľ práve tieto hodnoty nehľadáme, je ich potrebné zo skúmaného súboru vylúčiť.

  12. Nehierarchické zhlukovanie delíme do nasledovných kategórií: 1.Metódy Single-pass – vytvárajú zhluky, ktoré sú závislé od poradia vstupných objektov; 2. Relocation metódy – ako napr. k-means. Cieľom je vytvárať optimálny rozklad objektov s vopred určeným počtom zhlukov (tu môžeme vidieť rozdiel oproti spomínaným hierarchickým metódam, kde sme vopred neurčovali počet zhlukov); 3. Metódy Nearest Neighbour – pri týchto metódach sú zhluky vytvárané z objektov, ktoré sú si navzájom najbližšími susedmi;

  13. K-means • Najznámejšia nehierarchická zhlukovacia metóda je metóda k-priemerov (k- means). • Táto metóda sa vyznačuje tým, že vyprodukuje presne kzhlukov tak, aby bol vnútro skupinový súčet štvorcov vzdialeností objektov minimálny. • Vyžaduje si apriórne zadanie počtu zhlukov, ktoré majú byť vygenerované a kardinálne (intervalové) premenné bez extrémnych hodnôt ako vstup

  14. Segmentačnémetódy • Segmentačné metódy rozdeľujú vstupnédátao n prvkoch do k skupín, kde k<=n. • Číslo k je parametrom metódy a ako sme užuviedli reprezentuje počet výsledných skupín. • Vytvorené skupiny musiaspĺňať dve základné požiadavky: Každáskupina obsahuje aspoň jeden prvok; Každýprvoksanachádza v právejednej skupine. Prvýmkrokom segmentačných metód je náhodné vytvoreniek skupín. Následne satieto skupiny snažíme vylepšiť pomocou techniky postupnéhopremiestňovania jednotlivých prvkov. • Hlavnýmkritériom posudzovaniapríslušnosti ku skupine je vzdialenosť. Algoritmy z tejto triedy súvhodné zhlukovanie prvkov v malýchažstredných databázach. • Medzi najznámejšie patria algoritmy k-Means a k-Medoids.

  15. Oblasti použitia zhlukovej analýzy • Marketing: hľadanie skupín zákazníkov s podobnými vlastnosťami (správaním) na základe vlastností zákazníkov obsiahnutých v databáze; • Biológia: klasifikácia rastlín a zvierat na základe zistených charakteristických čŕt; • Knižnice: zoskupovanie kníh; • Poisťovanie: identifikácia poistných skupín, podvodov; • Plánovanie výstavby miest: identifikácia skupín domov na základe typu, hodnoty a geografickej polohy; • Štúdie zemetrasení: zhlukovanie epicentier zemetrasení na identifikáciu nebezpečných oblastí; • klasifikácia dokumentov. [

  16. Metódy založené na hustote • Veľa zhlukovacích metód rozdeľuje objekty na základe ich vzájomnej vzdialenosti čím vznikajú iba zhluky tvaru gule. Metódy založené na hustote boli navrhnuté práve na objavovanie zhlukov rôznych tvarov. • Princípom týchto metód je vytváranie zhlukov tak aby pre každý objekt v danom zhluku platilo, že v jeho okolí je minimálne min ďalších objektov. • Čísla, ktoré definujú veľkosť okolia objektu(polomer kružnice ktorá ohraničuje toto okolie) a minimálny počet “susedov“ tvoria vstupy. • Metódy založené na hustote sú vhodné nielen na objavovanie oblastí z veľkou hustotou, ale aj oblastí s veľmi malou hustotou. • Sú teda vhodné na objavovanie nevhodných a rušivých objektov. Do tejto triedy patria napríklad metódy Density Linkage, DBSCAN atd.

  17. Density Linkage • Metóda DensityLinkageje v princípe založená na aglomeratívnomhierarchickom algoritme. Dôvod prečo bola zaradená do tejto kapitoly je, že na rozdiel od iných hierarchických metód vníma podobnosť nie ako vzdialenosť ale ako odhad hustoty. V každej generácii sa teda spájajú zhluky s podobným odhadom hustoty. Existujú dva základné odhady hustoty: • Odhad metódou K - najbližších susedov(Kth–NearestNeighbor) • Odhad metódou homogénnych jadier (Uniform-Kernel) • Pri metóde K– najbližších susedov sa hustota meria ako vzdialenosť objektu k jeho k–temu najbližšiemu susedovi(čísloKje zadané ako parameter metódy). Čím je táto vzdialenosť menšia, tým hustejšia je oblasť, v ktorej sa daný objekt nachádza. Pri metóde homogénnych jadier sa hustota meria na základe parametrar, ktorý predstavuje polomer jadier. Výsledný odhad hustoty pre daný objekt je vyjadrený podielom počtu prvkov, ktoré sa nachádzajú v okruhu r od tohto objektu a objemu gule s polomeromr.

  18. Zdroje • https://www.sjf.tuke.sk/transferinovacii/pages/archiv/transfer/16-2010/pdf/31- 34.pdf • http://www2.fiit.stuba.sk/~kapustik/ZS/Clanky0809/michalek/index.html

More Related