420 likes | 609 Views
CLUSTERING. Hierarchical & Partitional Clustering. Pendahuluan. Tujuan utama teknik clustering: Pengelompokan sejumlah data/ obyek ke dalam cluster ( grup ) sehingga dalam setiap klaster akan berisi data yang semirip mungkin . Ukuran kemiripan biasanya dihitung dengan jarak .
E N D
CLUSTERING Hierarchical & Partitional Clustering
Pendahuluan • Tujuanutamateknik clustering: • Pengelompokansejumlah data/obyekkedalam cluster (grup) sehinggadalamsetiapklasterakanberisi data yang semiripmungkin. • Ukurankemiripanbiasanyadihitungdenganjarak. • Jarakdalamsatuklasterdibuatsedekatmungkindanjarakantarklasterdiusahakanuntuksejauhmungkin • Jadidalamsatu cluster harussemiripmungkindandenganklaster yang lain harusberbeda.
Clustering merupakansalahsatuteknikunsupervised learning • Tidakperludilakukanpelatihanmetodetersebut • Tidakadafase learning • Tidakmembutuhkan label ataupunkeluarandarisetiap data yang diinvestigasi. • Terdapat 2 pendekatandalam clustering: • Hirarki • Partisi
Untukoptimasi data yang diklaster, terkadangdiperlukanuntuknormalisasidahulu:
Clustering Hirarki (Hierarchical Clustering) • Langkah-langkah: • Kelompokkansetiapobyekkedalamkelompok/klasternyasendiri • Temukanpasangan yang paling miripuntukdimasukkankedalamklaster yang samadenganmelihatkedalammatrikskemiripan (resemblance/similarity) • Gabungkankeduaobyekkedalamsatuklaster • Ulangisampaitersisahanyasatuklaster
Kemiripan dan Ketidakmiripan • Untuk penggabungan obyek ke dalam satu klaster diperlukan ukuran kemiripan dan ketidakmiripan • Ukuran kemiripan dapat digunakan metoda: • Cosinus, kovarian dan korelasi • Ukuran ketidakmiripan dapat digunakan ukuran jarak
Cosinus • Cosinus antara 2 titik x dan y didefinisikan sebagai: • Di mana || x|| didefinisikan sebagai:
Cosinus - Contoh • Untuk data contoh [10 5], dan [20 20], maka besarnya cosinus di antara keduanya dapat dihitung sebagai berikut:
Kovarian • Kovarian antara dua data didefinisikan sebagai: • Di mana x adalah data pertama dan y data kedua. Dari data contoh bisa dihitung kovarian antara data ke satu dan ke dua. Rata-rata dari data satu dan ke dua adalah:
Korelasi • Koevisienkorelasi 2 buah data dituliskandgnrumusanberikut:
Macammetoda hierarchical clustering • Single linkage (nearest-neighbor approach) • Complete linkage (furthest-neighbor approach) • Average linkage • See on Discovering Knowledge in Data by Daniel T. Larose
Ukuran Jarak • Jarakmaksimumantaraelemendalamklaster (complete linkage clustering) • Jarak minimum antaraelemendalamklaster (single linkage clustering)
Konsep Jarak • JarakEuclidan, jarakduatitik x dan y menurutEuclidandirumuskansebagai: • Jarak Manhattan atauCityblock, menurutkonsepinijarakduatitik x dan y dirumuskan:
Single linkage (contoh) Data awal: Single linkage clustering (nearest-neighbor approach): mencarijarakterkecildgnnilaiterkeciluntukpenggabungan
Single linkage • Tahapandariproses clustering (single-lingkage): • Cluster {33} & {33} digabung • Cluster{15} & {16} digabung • Cluster{15 ,16} dg {18} digabung • Cluster{2}&{5} digabung • Cluster {2,5} dg {9} digabung • Cluster {2,5,9} dg {15,16,18} digabung • Cluster {2,5,9,15,16,18} dg {25} digabung • Cluster{2,5,9,15,16,18,25} dg {33,33} digabung • Cluster{2,5,9,15,16.18,25,33,33} dg {45} digabung
Complete linkage (contoh) Data awal: Complete linkage clustering : carijarak yang terjauh, tetapidiambilnilaiterkecil
Complete linkage • Tahapandariproses clustering: • Cluster {33} dg {33} digabung • Cluster{15} dg {16} digabung • Cluster{2} dg {5} digabung (arbitrary} • Cluster {15,16} dg {18} digabung • Cluster {2,5} dg {9} digabung • Cluster {25} dg {33,33} digabung • Cluster{2,5,9} dg {15,16,18} digabung • Cluster{25,33,33} dg {45} digabung • Cluster{2,5,9,16,18} dg {25,33,33,45} digabung
Average linkage • Tahapandariproses clustering: • Step 1 sama • Step 2 sama • Average linkage dari cluster {2}dg{5} ataucombinasi cluster {15,16} dg {18} sehinggadidapatkan average dari |18-15| dan |18-16| 2.5, shgdigabungkandahulu {15,16} dg {18} • Cluster {2} dg {5} digabung • Dst.
Clustering denganMetode K-Means Partitional clustering
Pendahuluan • K-means merupakanteknik clustering yang paling umumdansederhana. • Tujuan clustering iniadalahmengelompokkanobyekkedalamk cluster/kelompok. • Nilai k harusditentukanterlebihdahulu (berbedadengan hierarchical clustering). • Ukuranketidakmiripanmasihtetapdigunakanuntukmengelompokkanobyek yang ada.
Algoritma K-Means • Secararingkasalgoritma K-means adalahsebagaiberikut: • Pilihjumlah cluster k • Inisialisasi k pusat cluster • Tempatkansetiap data/obyekke cluster terdekat • Perhitungankembalipusat cluster • Ulangilangkah 3 denganmemakaipusat cluster yang baru. Jikapusat cluster tidakberubahlagimakaprosespeng-cluster-an dihentikan.
PenentuanJumlahdanPusat Cluster • Inisialisasiataupenentuannilaiawalpusat cluster dapatdilakukandenganberbagaimacamcara, antara lain: • Pemberiannilaisecara random • Pengambilansampelawaldari data • Penentuannilaiawalhasildari cluster hirarkidenganjumlah cluster yang sesuaidenganpenentuanawal. • Dalamhalinibiasanya user memilikipertimbanganintuitifkarenadiamemilikiinformasiawaltentangobyek yang sedangdipelajari, termasukjumlah cluster yang paling tepat.
PenempatanObyekkedalam Cluster • Penempatanobyekkedalam cluster didasarkanpadakedekatannyadenganpusat cluster • Dalamtahapiniperludihitungjaraktiap data ketiappusat cluster yang telahditentukan. • Jarak paling dekatantarasuatu data denganpusat cluster tertentumerupakanhalpenentu data tersebutakanmasuk cluster yang mana.
PerhitunganKembaliPusat Cluster • Pusat cluster ditentukankembalidengancaradihitungnilai rata-rata data/obyekdalam cluster tertentu. • Jikadikehendakidapat pula digunakanperhitungan median darianggota cluster yang dimaksud • Mean bukansatu-satunyaukuran yang bisadipakai • Padakasustertentupemakaian median memberikanhasil yang lebihbaik. Karena median tidaksensitifterhadap data outlier (data yang terletakjauhdari yang lain, meskipundalamsatu cluster - pencilan) • Contoh: • Mean dari 1, 3, 5, 7, 9 adalah 5 • Mean dari 1, 3, 5, 7, 1009 adalah 205 • Median dari 1, 3, 5, 7, 1009 adalah 5
Konvergensiatauterminasi • Untukmenghentikanprosesiterasidalammencaripeng-cluster-an yang optimum, makadigunakan ratio perbandinganantaranilaikovarianantar cluster dandidalam cluster: BCV = Between Cluster Variation; WCV = Within Cluster Variation • Denganrumusan SSE sbb: dimana, m nilaipusatdarisetiap cluster, p merepresentasikansetiaptitik data • Semakinbesarnilai ratio, semakintepat cluster ygterbentuk
Contoh • Data points untuk k-means • Maka, denganalgoritma k-means: • Menanyakan user berapajumlah cluster k (misal k=2) • Menentukansecara random untukinisialisasilokasipusat cluster; m1=(1,1) dan m2=(2,1) • Untuksetiap record dicarinilaipusat cluster terdekat, denganmenghitungjaraktiap-tiaptitikterhadappusat cluster.
1st iteration • Sehinggadengankedekatannyamengindikasikanke cluster mana
2nd iteration • Mengupdatenilaititikpusat cluster -1& 2 dengan mean darisetiap cluster ygterbentuk: m1’=[(1+1+1)/3, (3+2+1)/3]= (1, 2) m2’=[(3+4+5+4+2)/5, (3+3+3+2+1)/5]=(3.6, 2.4) • Kemudiandihitungjaraktiap-tiaptitikdenganpusatygbaru
Sehinggadiperolehjumlah error kuadratdaripusat cluster • Dan ratio: • Karenanilainyalebihbesardarisebelumnya, shgterjadipeningkatan
3rd iteration • Menemukankembalilokasipusat cluster denganmeng-update-nyadari mean: m1’’=[(1+1+1+1+2)/4,(3+2+1+1)/4]=(1.25, 1.75) m2’’=[(3+4+5+4)/4,(3+3+3+2)/4]=(4,2.75) • Kemudiandicarijaraknyatiap-tiaptitikterhadaptitikpusat cluster yang baru
Karenanilainyalebihbesardarisebelumnya,makadilakukaniterasilagiKarenanilainyalebihbesardarisebelumnya,makadilakukaniterasilagi
Kelebihan • Relatively efficient: O(tkn), dimananadalah # objects, kadalah # clusters, dant merupakan # iterations. Umumnya, k, t << n. • Biasanyaberhentipadanilai optimum lokal (local optimum). Nilaiglobal optimumdapatditentukandenganmenggunakantekniksepertideterministic annealingdangenetic algorithms • Kekurangan • Dapatditerapkanhanyasaatnilai mean telahditentukan, bagaimanauntuk data-data bersifatkategori? • Perluditentukank, jumlah cluster • Tidakdapatmenangani noisy data danoutliers • Tidaktepatuntukmembentuk cluster dengan data non-convex shapes