220 likes | 355 Views
Similarity/ Dissimilarity. Various types of variable Data Mining: Concept and Techniques ( Jiawei Han, Micheline Kamber ). Struktur data. Data matrix (object-by-variable structure) Struktur ini dalam bentuk tabel relasional , n objek x p variable:
E N D
Similarity/ Dissimilarity Various types of variable Data Mining: Concept and Techniques (Jiawei Han, MichelineKamber)
Struktur data • Data matrix (object-by-variable structure) • Strukturinidalambentuktabelrelasional, nobjek x p variable: • Dissimilarity matrix (object-by-object structure) • Menyimpankumpulanperkiraandariseluruhpasangan n objek (n-by-n tabel) • Strukturinidigunakanuntukmenghitungklasterdariobjek.
Macam-macam type data dalamsuatuvariabel: • Interval-scaled variable • Binary variable • Categorical variable • Ratio variable
Interval scaled variable • Interval scaled variable: ukuran2 kontinudariskala linear • Contoh: tinggi, berat, koordinat latitude atau longitude (clustering rumah), temperaturcuaca
Interval-scaled variables • Hitung mean absolute deviation, sf: • Hitungukuranygdistandarisasikan (or Z-score)
Euclidean Distance • Manhattan Distance
Contoh • Penghitungan dissimilarity tanpastandarisasi
Binary variable • Variabel yang memilikiduanilai 0 dan 1, dimana 0absent, 1present • Bagaimanamenghitungketidaksamaan (dissimilarity) Dissimilarity (jarak)
Contohvariabelbiner • Suatutabelrekordpasienberisiatribut: nama, gender, fever, cough, test-1,test-2, test-3, test-4 Nama object identifier Gender simetricatribute
Categorical variable • Variabelkategori: secaraumumsamadenganvariabelbinernamunmengambillebihdari 2 keadaan. • Contoh: map color (5 states): red, yellow, green, pink, and blue • Ukuran dissimilarity: • Dimana, p: jumlah variable, dan m: juml. variabelygbernilaisama
Contoh Dissimilarity
Makauntuk categorical variable, test 1, p=1 dan d(i,j)=0 jikasamadan 1 jikabeda. Sehinggadihasilkanmatrikberikut:
Ordinal Varible • Ordinal variable : miripdengan categorical variable, namunmemilikiartidalamurutandanbergunabilatidakdapatdiukursecaraobjektif. • Contoh: profesional rank: assistant, associate, and full for professor.
Jikaadanilai f darisuatuobjekxifdanmempunyai states ygterurutdalamrangking 1,…, Mf, makabisadituliskanrifє {1, …Mf} • Merubahnilairfdenganmenormalisasi :[0,1] denganrumusan: • Kemudiandicarinilaidisimilarity- nyadigunakanrumusanjarak
Contoh ordinal variable (test-2) • Ada 3 state dalam test 2: fair, good dan excellent, sehingga Mf=3 • Rubahnilaidlmobjektsbdengan 3(1, 2, dan 3). • Normalisasisehingga: rank-1=0, rank-2=0.5, rank-3=1 • MakadenganrumusanEcluidian Dist, didapatkan:
Ratio-scaled variable • Biasanyadigunakanuntukukuranpositippadaskala non linear sepertiskalaexponensial dg rumusan: • Contoh: pertumbuhanpopulasibakteriataukerusakanakibatradioaktif • Menggunakantransformasilogaritmikdengan formula yif=log(xif), nilaiyif yang digunakansbg interval value
Contoh ratio-scaled variable (test-3) • Makadgnmengaplikasikanlogaritmikdari tiap2 nilaidalam test-3: didapatkannilai: 2.65, 1.34, 2.21, dan 3.08 untukobjek 1-4 • Sehinggadenganrumusjarakdidapatkan : Dinormalisasi , Dg membagi 1.74
Variable of Mixed Types • Dalamdunianyata, seringdijumpai variable ygmemilikicampuran, antara lain: interval scaled, symmetric binary, categorical, ordinal atau ratio-scaled. • Makadapatdigunakanrumusanberikutuntukmencari dissimilarity: Dimana: ∂ij=0 jikaxjfatauxjfkosong & ∂ij=1 jikaadanilainya
Contohperhitungan mix-variable • Jikadidapatkandariperhitungansebelumnyadidapatkanjarakdaritiap-tiapvariabel (test1, test2, dan test 3: • Makadenganmengaplikasikanrumusantersebutdidapatkan