CLUSTERING

CLUSTERING Hierarchical & Partitional Clustering

Pendahuluan • Tujuanutamateknik clustering: • Pengelompokansejumlah data/obyekkedalam cluster (grup) sehinggadalamsetiapklasterakanberisi data yang semiripmungkin. • Ukurankemiripanbiasanyadihitungdenganjarak. • Jarakdalamsatuklasterdibuatsedekatmungkindanjarakantarklasterdiusahakanuntuksejauhmungkin • Jadidalamsatu cluster harussemiripmungkindandenganklaster yang lain harusberbeda.

Clustering merupakansalahsatuteknikunsupervised learning • Tidakperludilakukanpelatihanmetodetersebut • Tidakadafase learning • Tidakmembutuhkan label ataupunkeluarandarisetiap data yang diinvestigasi. • Terdapat 2 pendekatandalam clustering: • Hirarki • Partisi

Untukoptimasi data yang diklaster, terkadangdiperlukanuntuknormalisasidahulu:

Clustering Hirarki (Hierarchical Clustering) • Langkah-langkah: • Kelompokkansetiapobyekkedalamkelompok/klasternyasendiri • Temukanpasangan yang paling miripuntukdimasukkankedalamklaster yang samadenganmelihatkedalammatrikskemiripan (resemblance/similarity) • Gabungkankeduaobyekkedalamsatuklaster • Ulangisampaitersisahanyasatuklaster

Kemiripan dan Ketidakmiripan • Untuk penggabungan obyek ke dalam satu klaster diperlukan ukuran kemiripan dan ketidakmiripan • Ukuran kemiripan dapat digunakan metoda: • Cosinus, kovarian dan korelasi • Ukuran ketidakmiripan dapat digunakan ukuran jarak

Data contoh

Cosinus • Cosinus antara 2 titik x dan y didefinisikan sebagai: • Di mana || x|| didefinisikan sebagai:

Cosinus - Contoh • Untuk data contoh [10 5], dan [20 20], maka besarnya cosinus di antara keduanya dapat dihitung sebagai berikut:

Kovarian • Kovarian antara dua data didefinisikan sebagai: • Di mana x adalah data pertama dan y data kedua. Dari data contoh bisa dihitung kovarian antara data ke satu dan ke dua. Rata-rata dari data satu dan ke dua adalah:

Korelasi • Koevisienkorelasi 2 buah data dituliskandgnrumusanberikut:

Macammetoda hierarchical clustering • Single linkage (nearest-neighbor approach) • Complete linkage (furthest-neighbor approach) • Average linkage • See on Discovering Knowledge in Data by Daniel T. Larose

Ukuran Jarak • Jarakmaksimumantaraelemendalamklaster (complete linkage clustering) • Jarak minimum antaraelemendalamklaster (single linkage clustering)

Konsep Jarak • JarakEuclidan, jarakduatitik x dan y menurutEuclidandirumuskansebagai: • Jarak Manhattan atauCityblock, menurutkonsepinijarakduatitik x dan y dirumuskan:

Single linkage (contoh) Data awal: Single linkage clustering (nearest-neighbor approach): mencarijarakterkecildgnnilaiterkeciluntukpenggabungan

Single linkage • Tahapandariproses clustering (single-lingkage): • Cluster {33} & {33} digabung • Cluster{15} & {16} digabung • Cluster{15 ,16} dg {18} digabung • Cluster{2}&{5} digabung • Cluster {2,5} dg {9} digabung • Cluster {2,5,9} dg {15,16,18} digabung • Cluster {2,5,9,15,16,18} dg {25} digabung • Cluster{2,5,9,15,16,18,25} dg {33,33} digabung • Cluster{2,5,9,15,16.18,25,33,33} dg {45} digabung

Complete linkage (contoh) Data awal: Complete linkage clustering : carijarak yang terjauh, tetapidiambilnilaiterkecil

Complete linkage • Tahapandariproses clustering: • Cluster {33} dg {33} digabung • Cluster{15} dg {16} digabung • Cluster{2} dg {5} digabung (arbitrary} • Cluster {15,16} dg {18} digabung • Cluster {2,5} dg {9} digabung • Cluster {25} dg {33,33} digabung • Cluster{2,5,9} dg {15,16,18} digabung • Cluster{25,33,33} dg {45} digabung • Cluster{2,5,9,16,18} dg {25,33,33,45} digabung

Average linkage • Tahapandariproses clustering: • Step 1 sama • Step 2 sama • Average linkage dari cluster {2}dg{5} ataucombinasi cluster {15,16} dg {18} sehinggadidapatkan average dari |18-15| dan |18-16|  2.5, shgdigabungkandahulu {15,16} dg {18} • Cluster {2} dg {5} digabung • Dst.

Clustering denganMetode K-Means Partitional clustering

Pendahuluan • K-means merupakanteknik clustering yang paling umumdansederhana. • Tujuan clustering iniadalahmengelompokkanobyekkedalamk cluster/kelompok. • Nilai k harusditentukanterlebihdahulu (berbedadengan hierarchical clustering). • Ukuranketidakmiripanmasihtetapdigunakanuntukmengelompokkanobyek yang ada.

Algoritma K-Means • Secararingkasalgoritma K-means adalahsebagaiberikut: • Pilihjumlah cluster k • Inisialisasi k pusat cluster • Tempatkansetiap data/obyekke cluster terdekat • Perhitungankembalipusat cluster • Ulangilangkah 3 denganmemakaipusat cluster yang baru. Jikapusat cluster tidakberubahlagimakaprosespeng-cluster-an dihentikan.

PenentuanJumlahdanPusat Cluster • Inisialisasiataupenentuannilaiawalpusat cluster dapatdilakukandenganberbagaimacamcara, antara lain: • Pemberiannilaisecara random • Pengambilansampelawaldari data • Penentuannilaiawalhasildari cluster hirarkidenganjumlah cluster yang sesuaidenganpenentuanawal. • Dalamhalinibiasanya user memilikipertimbanganintuitifkarenadiamemilikiinformasiawaltentangobyek yang sedangdipelajari, termasukjumlah cluster yang paling tepat.

PenempatanObyekkedalam Cluster • Penempatanobyekkedalam cluster didasarkanpadakedekatannyadenganpusat cluster • Dalamtahapiniperludihitungjaraktiap data ketiappusat cluster yang telahditentukan. • Jarak paling dekatantarasuatu data denganpusat cluster tertentumerupakanhalpenentu data tersebutakanmasuk cluster yang mana.

PerhitunganKembaliPusat Cluster • Pusat cluster ditentukankembalidengancaradihitungnilai rata-rata data/obyekdalam cluster tertentu. • Jikadikehendakidapat pula digunakanperhitungan median darianggota cluster yang dimaksud • Mean bukansatu-satunyaukuran yang bisadipakai • Padakasustertentupemakaian median memberikanhasil yang lebihbaik. Karena median tidaksensitifterhadap data outlier (data yang terletakjauhdari yang lain, meskipundalamsatu cluster - pencilan) • Contoh: • Mean dari 1, 3, 5, 7, 9 adalah 5 • Mean dari 1, 3, 5, 7, 1009 adalah 205 • Median dari 1, 3, 5, 7, 1009 adalah 5

Konvergensiatauterminasi • Untukmenghentikanprosesiterasidalammencaripeng-cluster-an yang optimum, makadigunakan ratio perbandinganantaranilaikovarianantar cluster dandidalam cluster: BCV = Between Cluster Variation; WCV = Within Cluster Variation • Denganrumusan SSE sbb: dimana, m nilaipusatdarisetiap cluster, p merepresentasikansetiaptitik data • Semakinbesarnilai ratio, semakintepat cluster ygterbentuk

Contoh • Data points untuk k-means • Maka, denganalgoritma k-means: • Menanyakan user berapajumlah cluster k (misal k=2) • Menentukansecara random untukinisialisasilokasipusat cluster; m1=(1,1) dan m2=(2,1) • Untuksetiap record dicarinilaipusat cluster terdekat, denganmenghitungjaraktiap-tiaptitikterhadappusat cluster.

1st iteration • Sehinggadengankedekatannyamengindikasikanke cluster mana

Expectation: increasing for the ratio

2nd iteration • Mengupdatenilaititikpusat cluster -1& 2 dengan mean darisetiap cluster ygterbentuk: m1’=[(1+1+1)/3, (3+2+1)/3]= (1, 2) m2’=[(3+4+5+4+2)/5, (3+3+3+2+1)/5]=(3.6, 2.4) • Kemudiandihitungjaraktiap-tiaptitikdenganpusatygbaru

Sehinggadiperolehjumlah error kuadratdaripusat cluster • Dan ratio: • Karenanilainyalebihbesardarisebelumnya, shgterjadipeningkatan

3rd iteration • Menemukankembalilokasipusat cluster denganmeng-update-nyadari mean: m1’’=[(1+1+1+1+2)/4,(3+2+1+1)/4]=(1.25, 1.75) m2’’=[(3+4+5+4)/4,(3+3+3+2)/4]=(4,2.75) • Kemudiandicarijaraknyatiap-tiaptitikterhadaptitikpusat cluster yang baru

Karenanilainyalebihbesardarisebelumnya,makadilakukaniterasilagiKarenanilainyalebihbesardarisebelumnya,makadilakukaniterasilagi

Kelebihan • Relatively efficient: O(tkn), dimananadalah # objects, kadalah # clusters, dant merupakan # iterations. Umumnya, k, t << n. • Biasanyaberhentipadanilai optimum lokal (local optimum). Nilaiglobal optimumdapatditentukandenganmenggunakantekniksepertideterministic annealingdangenetic algorithms • Kekurangan • Dapatditerapkanhanyasaatnilai mean telahditentukan, bagaimanauntuk data-data bersifatkategori? • Perluditentukank, jumlah cluster • Tidakdapatmenangani noisy data danoutliers • Tidaktepatuntukmembentuk cluster dengan data non-convex shapes

CLUSTERING

CLUSTERING

Presentation Transcript

Clustering

Clustering

Clustering

Clustering

Clustering

Clustering

Clustering

Clustering: Partition Clustering

Clustering

Clustering

Clustering

Clustering

Clustering

Clustering

Clustering

Clustering

Clustering

Clustering