1 / 36

CLUSTERING

CLUSTERING. Hierarchical & Partitional Clustering. Pendahuluan. Tujuan utama teknik clustering: Pengelompokan sejumlah data/ obyek ke dalam cluster ( grup ) sehingga dalam setiap klaster akan berisi data yang semirip mungkin . Ukuran kemiripan biasanya dihitung dengan jarak .

nikkos
Download Presentation

CLUSTERING

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. CLUSTERING Hierarchical & Partitional Clustering

  2. Pendahuluan • Tujuanutamateknik clustering: • Pengelompokansejumlah data/obyekkedalam cluster (grup) sehinggadalamsetiapklasterakanberisi data yang semiripmungkin. • Ukurankemiripanbiasanyadihitungdenganjarak. • Jarakdalamsatuklasterdibuatsedekatmungkindanjarakantarklasterdiusahakanuntuksejauhmungkin • Jadidalamsatu cluster harussemiripmungkindandenganklaster yang lain harusberbeda.

  3. Clustering merupakansalahsatuteknikunsupervised learning • Tidakperludilakukanpelatihanmetodetersebut • Tidakadafase learning • Tidakmembutuhkan label ataupunkeluarandarisetiap data yang diinvestigasi. • Terdapat 2 pendekatandalam clustering: • Hirarki • Partisi

  4. Untukoptimasi data yang diklaster, terkadangdiperlukanuntuknormalisasidahulu:

  5. Clustering Hirarki (Hierarchical Clustering) • Langkah-langkah: • Kelompokkansetiapobyekkedalamkelompok/klasternyasendiri • Temukanpasangan yang paling miripuntukdimasukkankedalamklaster yang samadenganmelihatkedalammatrikskemiripan (resemblance/similarity) • Gabungkankeduaobyekkedalamsatuklaster • Ulangisampaitersisahanyasatuklaster

  6. Kemiripan dan Ketidakmiripan • Untuk penggabungan obyek ke dalam satu klaster diperlukan ukuran kemiripan dan ketidakmiripan • Ukuran kemiripan dapat digunakan metoda: • Cosinus, kovarian dan korelasi • Ukuran ketidakmiripan dapat digunakan ukuran jarak

  7. Data contoh

  8. Cosinus • Cosinus antara 2 titik x dan y didefinisikan sebagai: • Di mana || x|| didefinisikan sebagai:

  9. Cosinus - Contoh • Untuk data contoh [10 5], dan [20 20], maka besarnya cosinus di antara keduanya dapat dihitung sebagai berikut:

  10. Kovarian • Kovarian antara dua data didefinisikan sebagai: • Di mana x adalah data pertama dan y data kedua. Dari data contoh bisa dihitung kovarian antara data ke satu dan ke dua. Rata-rata dari data satu dan ke dua adalah:

  11. Korelasi • Koevisienkorelasi 2 buah data dituliskandgnrumusanberikut:

  12. Macammetoda hierarchical clustering • Single linkage (nearest-neighbor approach) • Complete linkage (furthest-neighbor approach) • Average linkage • See on Discovering Knowledge in Data by Daniel T. Larose

  13. Ukuran Jarak • Jarakmaksimumantaraelemendalamklaster (complete linkage clustering) • Jarak minimum antaraelemendalamklaster (single linkage clustering)

  14. Konsep Jarak • JarakEuclidan, jarakduatitik x dan y menurutEuclidandirumuskansebagai: • Jarak Manhattan atauCityblock, menurutkonsepinijarakduatitik x dan y dirumuskan:

  15. Single linkage (contoh) Data awal: Single linkage clustering (nearest-neighbor approach): mencarijarakterkecildgnnilaiterkeciluntukpenggabungan

  16. Single linkage • Tahapandariproses clustering (single-lingkage): • Cluster {33} & {33} digabung • Cluster{15} & {16} digabung • Cluster{15 ,16} dg {18} digabung • Cluster{2}&{5} digabung • Cluster {2,5} dg {9} digabung • Cluster {2,5,9} dg {15,16,18} digabung • Cluster {2,5,9,15,16,18} dg {25} digabung • Cluster{2,5,9,15,16,18,25} dg {33,33} digabung • Cluster{2,5,9,15,16.18,25,33,33} dg {45} digabung

  17. Complete linkage (contoh) Data awal: Complete linkage clustering : carijarak yang terjauh, tetapidiambilnilaiterkecil

  18. Complete linkage • Tahapandariproses clustering: • Cluster {33} dg {33} digabung • Cluster{15} dg {16} digabung • Cluster{2} dg {5} digabung (arbitrary} • Cluster {15,16} dg {18} digabung • Cluster {2,5} dg {9} digabung • Cluster {25} dg {33,33} digabung • Cluster{2,5,9} dg {15,16,18} digabung • Cluster{25,33,33} dg {45} digabung • Cluster{2,5,9,16,18} dg {25,33,33,45} digabung

  19. Average linkage • Tahapandariproses clustering: • Step 1 sama • Step 2 sama • Average linkage dari cluster {2}dg{5} ataucombinasi cluster {15,16} dg {18} sehinggadidapatkan average dari |18-15| dan |18-16|  2.5, shgdigabungkandahulu {15,16} dg {18} • Cluster {2} dg {5} digabung • Dst.

  20. Clustering denganMetode K-Means Partitional clustering

  21. Pendahuluan • K-means merupakanteknik clustering yang paling umumdansederhana. • Tujuan clustering iniadalahmengelompokkanobyekkedalamk cluster/kelompok. • Nilai k harusditentukanterlebihdahulu (berbedadengan hierarchical clustering). • Ukuranketidakmiripanmasihtetapdigunakanuntukmengelompokkanobyek yang ada.

  22. Algoritma K-Means • Secararingkasalgoritma K-means adalahsebagaiberikut: • Pilihjumlah cluster k • Inisialisasi k pusat cluster • Tempatkansetiap data/obyekke cluster terdekat • Perhitungankembalipusat cluster • Ulangilangkah 3 denganmemakaipusat cluster yang baru. Jikapusat cluster tidakberubahlagimakaprosespeng-cluster-an dihentikan.

  23. PenentuanJumlahdanPusat Cluster • Inisialisasiataupenentuannilaiawalpusat cluster dapatdilakukandenganberbagaimacamcara, antara lain: • Pemberiannilaisecara random • Pengambilansampelawaldari data • Penentuannilaiawalhasildari cluster hirarkidenganjumlah cluster yang sesuaidenganpenentuanawal. • Dalamhalinibiasanya user memilikipertimbanganintuitifkarenadiamemilikiinformasiawaltentangobyek yang sedangdipelajari, termasukjumlah cluster yang paling tepat.

  24. PenempatanObyekkedalam Cluster • Penempatanobyekkedalam cluster didasarkanpadakedekatannyadenganpusat cluster • Dalamtahapiniperludihitungjaraktiap data ketiappusat cluster yang telahditentukan. • Jarak paling dekatantarasuatu data denganpusat cluster tertentumerupakanhalpenentu data tersebutakanmasuk cluster yang mana.

  25. PerhitunganKembaliPusat Cluster • Pusat cluster ditentukankembalidengancaradihitungnilai rata-rata data/obyekdalam cluster tertentu. • Jikadikehendakidapat pula digunakanperhitungan median darianggota cluster yang dimaksud • Mean bukansatu-satunyaukuran yang bisadipakai • Padakasustertentupemakaian median memberikanhasil yang lebihbaik. Karena median tidaksensitifterhadap data outlier (data yang terletakjauhdari yang lain, meskipundalamsatu cluster - pencilan) • Contoh: • Mean dari 1, 3, 5, 7, 9 adalah 5 • Mean dari 1, 3, 5, 7, 1009 adalah 205 • Median dari 1, 3, 5, 7, 1009 adalah 5

  26. Konvergensiatauterminasi • Untukmenghentikanprosesiterasidalammencaripeng-cluster-an yang optimum, makadigunakan ratio perbandinganantaranilaikovarianantar cluster dandidalam cluster: BCV = Between Cluster Variation; WCV = Within Cluster Variation • Denganrumusan SSE sbb: dimana, m nilaipusatdarisetiap cluster, p merepresentasikansetiaptitik data • Semakinbesarnilai ratio, semakintepat cluster ygterbentuk

  27. Contoh • Data points untuk k-means • Maka, denganalgoritma k-means: • Menanyakan user berapajumlah cluster k (misal k=2) • Menentukansecara random untukinisialisasilokasipusat cluster; m1=(1,1) dan m2=(2,1) • Untuksetiap record dicarinilaipusat cluster terdekat, denganmenghitungjaraktiap-tiaptitikterhadappusat cluster.

  28. 1st iteration • Sehinggadengankedekatannyamengindikasikanke cluster mana

  29. Expectation: increasing for the ratio

  30. 2nd iteration • Mengupdatenilaititikpusat cluster -1& 2 dengan mean darisetiap cluster ygterbentuk: m1’=[(1+1+1)/3, (3+2+1)/3]= (1, 2) m2’=[(3+4+5+4+2)/5, (3+3+3+2+1)/5]=(3.6, 2.4) • Kemudiandihitungjaraktiap-tiaptitikdenganpusatygbaru

  31. Sehinggadiperolehjumlah error kuadratdaripusat cluster • Dan ratio: • Karenanilainyalebihbesardarisebelumnya, shgterjadipeningkatan

  32. 3rd iteration • Menemukankembalilokasipusat cluster denganmeng-update-nyadari mean: m1’’=[(1+1+1+1+2)/4,(3+2+1+1)/4]=(1.25, 1.75) m2’’=[(3+4+5+4)/4,(3+3+3+2)/4]=(4,2.75) • Kemudiandicarijaraknyatiap-tiaptitikterhadaptitikpusat cluster yang baru

  33. Karenanilainyalebihbesardarisebelumnya,makadilakukaniterasilagiKarenanilainyalebihbesardarisebelumnya,makadilakukaniterasilagi

  34. Kelebihan • Relatively efficient: O(tkn), dimananadalah # objects, kadalah # clusters, dant merupakan # iterations. Umumnya, k, t << n. • Biasanyaberhentipadanilai optimum lokal (local optimum). Nilaiglobal optimumdapatditentukandenganmenggunakantekniksepertideterministic annealingdangenetic algorithms • Kekurangan • Dapatditerapkanhanyasaatnilai mean telahditentukan, bagaimanauntuk data-data bersifatkategori? • Perluditentukank, jumlah cluster • Tidakdapatmenangani noisy data danoutliers • Tidaktepatuntukmembentuk cluster dengan data non-convex shapes

More Related