1 / 38

DATA REDUCTION

DATA REDUCTION. DIMENSIONS OF LARGE DATA SETS. Pemilihan representasi data, seleksi , reduksi atau transformasi fitur  kualitas solusi dalam data mining Menentukan masalah apakah dapat dipecahkan seluruhnya ? Bagaimana kekuatan model hasil dari data mining?

erma
Download Presentation

DATA REDUCTION

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DATA REDUCTION

  2. DIMENSIONS OF LARGE DATA SETS • Pemilihanrepresentasi data, seleksi, reduksiatautransformasifitur kualitassolusidalam data mining • Menentukanmasalahapakahdapatdipecahkanseluruhnya ? • Bagaimanakekuatan model hasildari data mining? • Jumlahfitur beberaparatus. • Diperlukanreduksi model untukpenggunaandalampraktek • Alasanlain beberapaalgoritma data-mining tidakdapatdiaplikasikan

  3. Tigadimensiutamadari data set (plain files): • Kolom (fitur) • Baris (kasus/ contoh) • Nilaifitur • Tigaoperasidasardariprosesreduksi data: • Delete kolom, • Delete baris • Penguranganjumlahnilaikolom (penghalusansuatufitur).

  4. Operasi lain: mereduksitetapi data barutidakdikenalilagi. • Pendekatan yang digunakanmenggantikansekumpulanfiturawaldenganfiturcampuranygbaru. • Sebagaicontoh, data set mempunyaiduafitur, tinggi-orangdanberat-orang digantihanyasatufitur, BMI (body-mass-index), merupakanproporsihasilbagidariduafiturawal.

  5. Beberapa parameter yang digunakansebagaianalisadasaruntukpereduksian: • Computing time Data yang lebihsederhanadiharapkanmereduksiwaktu yang diambiluntuk data mining. • Predictive/ descriptive accuracy Ukuraninimendominasibagikebanyakan model data mining, olehkarenamengukurseberapabaik data disimpulkandandigeneralisirkedalamsuatu model. • Representation of the data mining model. Kesederhanaanrepresentasi model yang dapatdimengerti.

  6. Hal yang ideal adalahjikadapatmereduksiwaktu, meningkatkanakurasidanrepresentasisederhanapadawaktuygsama, menggunakanreduksidimensi. Namuntidakadametodereduksi data ygtunggaldapat paling cocokuntuksemuaaplikasi. • Pemilihanmetodeseleksididasarkanataspengetahuanygadatentangsuatuaplikasi (relevansi data, noise data, meta-data, fiturygberhubungan), dan constraint waktuygdimintauntuksolusiakhir.

  7. Feature Reduction Padadasarnya, kitamemilihfiturygrelevanpadaaplikasi data-mining agar supayamencapaihasil yang maksimumdenganukurandanusahapemrosesan minimum. Suatuprosesreduksifiturharusmenghasilkan: • Data yang lebihkecilsehinggaalgoritma data-mining dapatmempelajarilebihcepat • Akurasidariproses data-mining lebihtinggisehingga model dapatmengeneralisasilebihbaikdari data • Hasilsederhanadariproses data-mining sehinggamerekalebihmudahuntukmengertidanmenggunakan • Fiturlebihkecilsehinggarentetanberikutnyadarikumpulan data, suatupenghematandapatdibuatdenganmenghilangkanredundansiataufitur yang tidakrelevan

  8. Duatugasstandardikaitkandenganproduksikumpulanfitur, danmerekadiklasifikasikansebagai: • Feature selection – human analyst mungkinmemilihbagiandarifiturygditemukandi data set awal. Prosesdariseleksifiturdapat manual ataudidukungolehbeberapaprosedureotomatis • Feature composition – komposisidarifituradalahfaktorpenentu yang lebihbesardalamkualitashasil data-mining dariteknik mining khusus.

  9. Feature Selection • Perbedaaanmetoda-metodapemilihanfiturdiklasifikasikanmenjadidua: algoritmafeature-rangkingdanalgoritmasubsetminimum. • Algoritma feature-rangking. • Daftarfiturterurutygdisusunmenurutukuranevaluasiukurankhusus. • Suatuukurandapatdigunakanatasakurasi data ygtersedia, konsistensi, isiinformasi, jarakantarcontohdanterakhir, secarastatistikbergantungantarafitur-fitur. • Algoritmainitidakmemberitahukanapakahkumpulanfitur minimum untukanalisalebihlanjut; merekamengindikasikanrelevansifiturdibandingpada yang lainnya. • Algoritma subset minimum • Mendapatkansubset fitur minimum dantidakadaperbedaandibuatdiantarafitur-fiturdalam subset semuamampunyairangkingygsama. • Fitur-fiturdalam subset relevanditujukanuntukproses mining; yglainnyatidakrelevan. • Skemafitur-evaluasi: caradimanafiturdievaluasidankemudiandirangking, atauditambahkanke subset terpilih.

  10. Seleksifitursecaraumumdapatdigambarkansebagaimasalahpencarian, dengansetiap state di area pencariankhusus subset darifiturygmungkin. Jika, suatu data set mempunyai 3 fitur {A1, A2, A3}, danprosesseleksifitur-fitur, keberadaanfiturdikodekan 1 dankeabsenannyadengan 0, sehinggaada 23 subset reduksifiturdikodekandengan {0, 0, 0},{1, 0, 0}, { 0,1, 0}, {0, 0, 1}, {1, 1, 0}, {1, 0, 1}, {0, 1, 1}, dan {1, 1, 1}. • Masalahseleksifituradalahrelatifsepelehjikaruangpencariankecil, olehkarenakitadapatmenganalisaseluruh subset dibeberapaperintahdansuatupencarianakanlengkapdalamwaktusingkat. • Namunpencarianbiasanya 2Ndimanajumlahdimensi N diaplikasi data-mining adalahbesar (N>20). Exhaustive search dariseluruh subset fiturseringdigantikandenganprosedur heuristic search. Penggunaanpengetahuanmasalah, prosedur-prosedurinimenemukan subset fitur yang memperbaikilebihlanjutmeningkatkankualitasproses data mining. • Tujuanseleksifituradalahmenemukan subset fiturdenganperforma data mining dapatdibandingkanpadakumpulanfiturutuh.

  11. Aplikasiseleksifiturdanreduksidimensi data membantuseluruhfaseproses data mining untukpenemuanpengetahuan. • Dimulaipadafase preprocessing, meliputiseleksifiturdanreduksiadalahbagiandarialgoritma data-mining, meskipunkadangdiaplikasikandipostprocessinguntukevaluasidankonsulidasihasilygdicapailebihbaik.

  12. Entropy Measure for Ranking Features • Suatumetodauntukseleksiunsupervisedfiturataumerangkingberdasarkanukuran entropy adalahteknikygrelatifsederhana • Asumsidasaradalahsemuacontohdiberikansebagaivektortanpaadanyaklasifikasidari output sample. • Pendekatandidasarkanatasobservasipembuanganfitur yang tidakrelevan, fiturredundan,ataukeduanyadarikemungkinanygtidakmengubahkarakteristik data set. • Algoritmadidasarkanatasukuransimilarity S yang berbandingterbalikdenganjarak D antaradua n-dimensional sample. Ukuranjarak D kecil, dekatdengancontoh, dan yang besaruntukperbedaanpasangan.

  13. , namun sering digunakan konstanta • Ada 2 formula ygdipakaiuntukmengukur similarity terhadapfitur: data numerikdan non numerik (kategori). • Data numerik: Similarity (S) dimana: e=2.7183; Namunseringdigunakansebagaikonstanta Dan ukuranjarak D didapatkan:

  14. Data non-numerik Di mana |xij=xjk| adalah 1 jikaxij=xjk, dansebaliknya 0. Jumlah variable adalah n. Data set dgn 3 fiturkategori Tabelukuran similarity Sijdiantara samples

  15. Nilai Entropy yang digunakanuntukrangkingfituradalah: • Kedekatansuatufiturditunjukansemakinkecilnyaperbedaannilai entropy.

  16. DATA REDUCTION METHODS: • Principal Component Analysis • Values Reduction • Feature Discretization

  17. 1. Principal Component Analysis (PCA) • Metodastatistik yang populeruntukmereduksidimensi data set yang besaradalahmetodeKarhunen-Loeve (K-L), disebutjuga Principal Component Analysis • Merupakanmetodapentranformasian data set awalygdirepresentasikan vector sample menjadikumpulan vector sample barudengandimensiygdidapatkan. • Tujuannyamemfokuskaninformasiterhadapperbedaan-perbedaandiantara sample menjadidimensiyang kecil.

  18. Idedasar: sekumpulan vector sampelberdimensi n X={x1, x2, x3, …, xm} ditransformasikankehimpunan lain Y = {y1, y2, y3, …, ym} dengandimensiygsama, tetapi y ,memiliki property yg paling informatifisinyadisimpandalamdimensipertama. • Transformasididasarkanatasasumsibahwainformasiygtinggiberhubungandenganvarianygtinggi. Sehinggajikamereduksikesatudimensidarimatrik X kematrik Y dapatdituliskan: Y= A ∙ X, pemilihan A sehingga Y mempunyaivarianterbesardari data set ygdiberikan. Dimensitunggaldari Y diperolehdaritransformasiinidisebut first principal component.

  19. Makauntukmenentukan matrix A, dihitungdahulu covariance matrix S sebagaitahapawaldaritransformasifitur. • Dimana:

  20. Eigen values & Eigen vector • Eigenvaluesdari matrix covariance S : λ1 ≥ λ2 ≥… λn ≥0 • Eigenvectors v1,v2,… vnberhubungandenganeigenvalues λ1 ≥ λ2 ≥… λndandisebut principal axes. • Kriteriauntukseleksifiturdidasarkanatasrasiopenjumlahaneigenvalueterbesar S kenilaiseluruhS, sehinggadapatdituliskan: • Ketikanilairasio R cukupbesar (lebihbesardarinilai threshold), seluruhanalisadari subset atasfitur m merepresentasikanestimasiawalygbaikdari n dimensiruang.

  21. Nilaieigen value diperolehdenganmengetahuinilai covariance sehinggadituliskan: det (S – λ) = 0 ; dimana S= matrix covariance • Sedangkannilaieigen vector (v) diperolehdenganrumusanberikut: λv = Sv

  22. Contoh lain: Covariance Eigenvaluedari data

  23. Dengannilai threshold R*=0.95, makadipilih 2 fiturpertama, sebab: R = (2.91082 + 0.92199)/(2.91082 + 0.92122 + 0.14735 + 0.02061) = 0.958 > 0.95, sehingga2 fiturtersebutcukupmendeskripsikankarakteristik data set.

  24. 2. Value Reduction • Suatureduksijumlahnilai-nilaidiskrituntuk figure ygdiberikandidasarkanatasteknikdiskritisasi. • Tujuannnya : mendiskritisasinilaifiturkontinumenujusejumlahkecil interval, ygmanasetiap interval dipetakkankesimboldiskrit. • Keuntungan: diskripsi data disederhanakansehingga data danhasil-hasil data-mining mudahdimengerti, jugakebanyakanteknikdata mining dapatdiaplikasikandengannilaifiturdiskrit.

  25. Cut points? • Sebagaicontoh: suatuumurseseorang, diberikandiawalproses data-mining sebagainilaikontinu (antara 0 dan 150 tahun) mungkindiklasifikasikanmenjadi segmen2 kategori: anak, remaja, dewasa, setengahtua, tua. Titik2 batasdidefinisikansecarasubyektif. age 0 150 Child Adolescent Adult Middle-age Elderly

  26. Pengelompokannilai-nilaifitur • Diberikansuatufiturmempunyaisuatujaraknilai-nilainumerik, dannilai-nilaiinidapatdiurutkandariygterkecilkeygterbesar. • penempatanpembagiannilai-nilaikedalamkelompok-kelompokdengannilai-nilaiygdekat. • Seluruhnilaidalamkelompokakandigabungkekonseptunggalygdirepresentasikandengannilaitunggal, biasanyamean ataumediandarinilai-nilaitersebut. • Nilaimean/ mode biasanyaefektifuntukjumlahnilaiyglumayanbesar. • Namunbilakecil/ sedikit, batasandarisetiapkelompokdapatmenjadikandidatuntukrepresentasinya.

  27. Sebagaicontoh, jikadiberikanfitur f {3, 2, 1, 5, 4, 3, 1, 7, 5, 3} kemudiansetelah sorting didapatkan : {1, 1, 2, 3, 3, 3, 4, 5, 5, 7} • Makasekarang, mungkindipecahjumlahkumpulannilaikedalam 3 bins {1, 1, 2, 3, 3, 3, 4, 5, 5, 7} BIN1 BIN2 BIN3

  28. {1, 1, 2, 3, 3, 3, 4, 5, 5, 7} BIN1 BIN2 BIN3 • Langkahberikutnya, perbedaanrepresentasidapatdipilihuntuksetiapbin. • Berdasarkan mode dalam bin, makanilai-nilaibaru: {1, 1, 1, 3, 3, 3, 5, 5, 5, 5} BIN1 BIN2 BIN3 • Berdasarkan mean {1.33, 1.33, 1.33, 3, 3, 3, 5.25, 5.25, 5.25, 5.25} BIN1 BIN2 BIN3 • Berdasarkankedekatandenganbatasannilaidalam bin: {1, 1, 2, 3, 3, 3, 4, 4, 4, 7} BIN1 BIN2 BIN3

  29. Masalahutamadarimetodainiadalahmenemukanbatasanterbaikuntuk bin. Makaprosedurenyaterdirilangkah-langkahberikut: • Urutkanseluruhnilaibagifiturygdiberikan • Assign denganperkiraansejumlahnilai-nilaiygberdekatansetiap bin • Pindahkanelemenbatasdarisatu bin keberikutnya (atausebelumnya) ketikamereduksi error jarakkeseluruhan (ER)

  30. Contoh: • Kumpulan nilaidarifitur f adalah {5, 1, 8, 2, 2, 9, 2, 1, 8, 6}. Split kedalam 3 bin (k=3), dimana bin2 akandirepresentasikandengan mode-nya. • Sorted nilai2 fitur f : { 1, 1, 2, 2, 2, 5, 6, 8, 8, 9} • Inisialisasi bin (k=3) BIN1 BIN2 BIN3 (i) Modes untukketiga bin terpilih : {1, 2, 8}. Maka total error: ER = 0 + 0 + 1+ 0 + 0 + 3 + 2 + 0 + 0 + 1 = 7 (ii) Setelahmemindahkan 2 elemendari BIN2 ke BIN1 dan 1 elemendari BIN3 ke BIN2, makadiperoleh ER yglebihkecildandistribusiakhirmenjadi: Final bins  f= { 1, 1, 2, 2, 2, 5, 6, 8, 8, 9} BIN1 BIN2 BIN3 • Modesnya: {2, 5, 8}, dan total error ER diminimisasimenjadi 4. • Distribusiakhir, denganmedian-median sebagai representative akandidaptkanmasalahreduksinilai.

  31. 3. FEATURE DISCRETIZATION • ChiMerge: suatualgoritmadiskritisasi yang menganalisikualitas interval atasfiturygdiberikandenganmenggunakanstatistik X2. • Algoritmamenentukankesamaanantaradistribusi data dalam interval ygberdekatanberdasarkanklasifikasi output sample. • Jikakesimpulandari X2 test iniadalah class output ygindependenmaka interval harusdigabungkan, sebaliknyajikaperbedaannyaterlalubesarmakatidakdigabung.

  32. AlgoritmaChiMergeberisi 3 tahapuntukdiskritisasi: • Sort data atasfiturygdiberikansecaraurutnaik • Definisikaninisialawal interval sehinggasetiapnilaidalam interval terpisah • Ulangihinggatidakada X2 dari 2 interval ygberdekatanlebihkecildarinilai threshold.

  33. Dimana: • k= jumlahkelas • Aij=jumlahcontohdalam interval ke-i, kelaske-j • Eij =frekuensiygdiharapkandariAij, ygmanadihitung (Ri.Cj)/N • Ri= jumlahcontohdalam interval ke –i • Cj = jumlahcontohdalamkelaske –j • N= jumlah total daricontoh

  34. Contohilustrasi

  35. Berdasarkantabeldiatasdidapatkan: E11 = 2/2 = 1 E12 0/2 ≈ 0.1 E21 = 2/2 = 1 dan E22 = 0/2 ≈ 0.1 X2 =(1-1)2/1+(0-0.1)2/0.1 +(1-1)2/1 +(0-0.1)2/0.1 = 0.2 Olehkarenalebihkecildari threshold (2.706 untukdistribusi dg α =0.1, makadilakukanpenggabungan

  36. E11 = 12/5 = 2.4 E12 = 3/5 = 0.6 E21 = 8/5 = 1.6 E22 = 2/5 = 0.4 X2 = 0.834

  37. E11 = 2.78, E12 = 2.22, E21 = 2.22, E22 = 1.78, danχ2 = 2.72 Olehkarenadihasilkan > dari threshold (2.706), makatidakdiperlukanlagipenggabungan

More Related