1 / 38

Preparing Data

Preparing Data. What is Data?. Attributes. Kumpulan obyek data dan atributnya Atribut adalah property atau karakteristik suatu obyek Contoh : warna mata , temperature, dll Atribut dikenal sebagai variable, field, ataupun karakteristik Kumpulan dari atribut menggambarkan obyek

ely
Download Presentation

Preparing Data

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Preparing Data

  2. What is Data? Attributes • Kumpulan obyek data danatributnya • Atributadalahproperty ataukarakteristiksuatuobyek • Contoh: warnamata, temperature, dll • Atributdikenalsebagai variable, field, ataupunkarakteristik • Kumpulan dariatributmenggambarkanobyek • Obyekdikenaljugasebagai record, point, case, sample, entitas Objects

  3. Attribute Values • Nilaiatributadalahangka-angkaatausimbol-simbolyang diassignkesuatuatribut • Perbedaanantaraatributdannilaiatribut • Atributygsamadapatdipetakkankenilaiatributyang beda • Misal: ketinggiandapatdiukurdalam feet atau meter • Atributygbedadapatdipetakankehimpunannilaiyang sama • Contoh: nilaiatributuntuk ID dan age adalah integer • Tetapi property nilaiatributdapatberbeda: • ID tidakmempunyaibatasannilaimaksimumdan minimum

  4. Attribute Types • Adajenis-jenisatribut yang berbeda: • Nominal • Contoh: nomor ID, warnamata, kode pos • Ordinal • Rangking/ tingkatan (contoh rasa darikripikkentangdalamskala 1-10), grade, tinggidalam {tinggi, sedang, rendah} • Interval • Contoh: tanggalkalender, temperature dalam Celsius atau Fahrenheit • Ratio • Contoh: temperature dalam Kelvin, panjang, waktu, jumlah

  5. Properties of Attribute Values /1 • Jenisatributtergantungpadapropertiberikut yang manadiamiliki • Distinctness: =  • Order: < > • Addition: + - • Multiplication: * / • Nominal attribute: distinctness • Ordinal attribute: distinctness & order • Interval attribute: distinctness, order & addition • Ratio attribute: all 4 properties

  6. Attribute Type Description Examples Operations Nominal The values of a nominal attribute are just different names, i.e., nominal attributes provide only enough information to distinguish one object from another. (=, ) zip codes, employee ID numbers, eye color, sex: {male, female} mode, entropy, contingency correlation, 2 test Ordinal The values of an ordinal attribute provide enough information to order objects. (<, >) hardness of minerals, {good, better, best}, grades, street numbers median, percentiles, rank correlation, run tests, sign tests Interval For interval attributes, the differences between values are meaningful, i.e., a unit of measurement exists. (+, - ) calendar dates, temperature in Celsius or Fahrenheit mean, standard deviation, Pearson's correlation, t and F tests Ratio For ratio variables, both differences and ratios are meaningful. (*, /) temperature in Kelvin, monetary quantities, counts, age, mass, length, electrical current geometric mean, harmonic mean, percent variation Properties of Attribute Values /2

  7. Attribute Level Comments Transformation Nominal Any permutation of values If all employee ID numbers were reassigned, would it make any difference? Ordinal An order preserving change of values, i.e., new_value = f(old_value) where f is a monotonic function. An attribute encompassing the notion of good, better best can be represented equally well by the values {1, 2, 3} or by { 0.5, 1, 10}. Interval new_value =a * old_value + b where a and b are constants Thus, the Fahrenheit and Celsius temperature scales differ in terms of where their zero value is and the size of a unit (degree). Ratio new_value = a * old_value Length can be measured in meters or feet. Properties of Attribute Values / 3

  8. Discrete and Continuous Attributes • Discrete Attribute • Mempunyaihimpunannilaiterbatasatautakterbatas • Contoh: zip codes, himpunankatadalamkumpulandokumen • Seringdirepresentasikansbg variable integer • Note: binary attributes  special case • Continuos Attribute • Memilikiangka-angka real sebagainilaiatribut • Contoh: temperatur, tinggiatauberat • Dapatdiukurdandirepresentasikanmenggunakansejumlah digit terbatas • Cirikhasnyadirepresentasikansebagai variable pecahan

  9. Asymmetric Attributes • Hanyakeberadaannya (non zero attribute value) diperhatikan • Contoh: • Kata-katamunculdidokumen • Item-item munculditransaksi customer

  10. Types of data sets • Record • Data Matrix • Document Data • Transaction Data • Graph • World Wide Web • Molecular Structures • Ordered • Spatial Data • Temporal Data • Sequential Data • Genetic Sequence Data

  11. Important characteristics of structured data • Dimensionality • Sparsity • Hanyamenghitungkemunculan • Resolution • Pola-polabergantungskala

  12. Record Data • Data yang berisikumpulan record, yang manamasing-masingberisisuatuhimpunanatribut yang ditentukan.

  13. Data Matrix • Jikaobjek data mempunyaikumpulanatributnumerikygditentukan , kemudian data objekdapatdipandangsebagaititikdalamruang multidimensional, dimanasetiapdimensimerepresentasiansuatuatribut yang berbeda. • Seperti data set dapatdirepresentasikandengansuatumatrikm denganndimanaadam baris, satudarisetiapobjekdann kolom, satuuntuksetiapatribut.

  14. Document Data • Setiap document menjadisuatu ‘term’ vector, • Setiap term adalahkomponen (atribut) dari vector • Nilaisetiapkomponenadalahbanyaknyawaktuygberhubungan terms terdapatdalam document

  15. Transaction Data • Jenisspesialdari data rekord , dimanasetiap record (transaksi) mencangkupkumpulan item-item • Contoh: Tokopenjualanbahanmakanan. Sejumlahprodukdibeli customer selamaperjalananpembelianmerupakansuatutransaksi, namunprodukygdibelimerupakan item

  16. Graph Data • Contoh: Generic graph and HTML Links

  17. Chemical Data • Benzene Molecule: C6H6

  18. Ordered Data /1 • Sequence of transaction Items/Events An element of the sequence

  19. Ordered Data /2 • Genomic sequence data

  20. Ordered Data /3 • Spatio-Temporal data Average Monthly Temperature of land and ocean

  21. Data Quality • Jenismasalahapakahkualitas data? • Bagaimanakitadapatmendeteksimasalahdengan data? • Apaygdapatkitalakukantentangmasalahini? • Contohmasalahkualitas data: • Noise & outliers • Missing Values • Duplicate data

  22. Noise • Mengacupadamodifikasinilai original • Contoh: distorsisuaraseseorangketikaberbicara Two Sine Waves Two Sine Waves + Noise

  23. Outliers /1 • Outliers adalahobyek data dengankarakteristikberbedadengankebanyakan data obyek lain dalam data set.

  24. Outliers /2 • Contoh: suatu data set merepresentasikangambaranumurdengan 20 nilaiygberbeda, • Age = {3, 56, 23, 39, 156, 52, 41, 22, 9, 28, 139, 31, 55, 20, -67, 37, 11, 55, 45, 37} • Maka parameter statistikaygberhubungan: • Mean = 39.9 • Standard deviation = 45.65 Jikakitamemilihnilai threshold untukdistribusi normal data : Theshold= Mean ± 2 x Standard Deviation makaseluruh data ygdiluar range [-54.1, 131.2] adalah potential outliers. Dan olehkarena age >0, mungkinmengurangi range menjadi [0, 131.2]. Sehinggaada outlier berdasarkankriteriaygdiberikan: 156, 139dan -67 Dengankemungkinanygtinggi, dapatdisimpulkan 3 data tersebutadamistypo (data ygdimasukkandenganpenambahan digit atautanda ‘-’)

  25. Missing Values • Beberapaalasan missing values: • Informasitidakterkumpul (misal: orang2 menolakmemberikan info umurdanberatmereka) • Atributmungkintidakdapatdiaplikasikankesemuakasus (misal: pendapatantidakdapatdiaplikasikanke anak2) • Mengatasi missing values: • Eliminasiobyek data • Mengestimasi missing value selamaanalisis • Menggantidengansemuanilaikemungkinan (pembobotanolehkemungkinannya)

  26. Duplicate Data • Data set mungkinterdapatobyek data yang duplikat, atauhampirduplikasidariyg lain • Isuutamadenganmenggabungkansumberygberbeda-beda • Contoh: orangygsamadenganberbagai email address • Data cleaning • Prosesperlakuandenganisu data duplikasi

  27. Data Preprocessing: Why is Needed? • Data diduniariilcenderungkotor • Incomplete: kekurangannilaiatribut, kurangatributtttygmenarik, atauhanyaberupakumpulan data • Noise: berisi errors atau outliers • Inconsistent: berisiberbeda format dalam code dannama • Data ygtidakberkualitas, tidakadahasil-hasil mining ygberkualitas • Keputusankualitasharusdidasarkanpada data kualitas • Data warehouse memerlukanintegritaskonsistendari data kualitas

  28. Major task in Data Preprocessing • Data Cleaning • Data Integration • Data Transformation • Data Reduction • Data Discretization

  29. Forms of Data Preprocessing

  30. Transformation of Raw Data • Normalization • Data smoothing • Differences and ratios

  31. Normalizations • Nilaiygterukurdapatdiskalake range khusus, seperti [-1, 1], atau [0,1] denganalasanukuran-ukuranjarakakan overweight yang dimiliki, atas rata-rata, nilai-nilaiitulebihbesar. • Ada 3 tehniknormalisasi: • Decimal scalling • Min-max normalization • Standard deviation normalization

  32. Decimal scalling (normalization) • Menggerakkantitikdesimaltetapimasihmemeliharakebanyakannilai digit asal. Skalakhususmemeliharanilaidalam range -1 sampai 1. Persamaanberikutmenggambarkanpenskalaandesimal, dimana v(i) adalahnilaidari feature v untukkasusidan v’(i) adalahnilaiygdiskala. v’(i)=v(i)/10k untuk k terkecilsehingga max (v’(i))< 1 Contoh: Jikanilaiterbesar data set 455 danterkecil -834, makanilaiabsolutmaksimummenjadi .834, danpembagiuntuksemua v(i) adalah 1000(k=3).

  33. Min-max normalization • Andaikan data v dalamsuatu range antara 150 dan 250. Maka, metodenormalisasisebelumnyaakanmemberikan data ygdinormalisasiantara .15 dan .25; tetapidiaakanmengakumuladinilaidalam subinterval kecildalam range keseluruhan. Untukmencapaidistribusiyglebihbaikdarinilaiseluruhnya, intervalnyadinormalisasikan, seperti [0, 1] v’(i) =(v(i)-min(v(i))) / (max(vi))-min(v(i))) dimana, nilai minimum danmaksimum v dihitungsecaraotomatis, ataudiestimasiolehseorang expert memberikan domain. Transformasiygserupamungkindigunakanuntuk interval ygdinormalisasi [-1, 1].

  34. Standard deviation normalization • Normalisasidengan standard deviasiseringbekerjabaikdenganukuranjarak, tetapitransformasi data tidakdapatdikenali data asalnya. v’(i)=(v(i)-mean(v))/sd(v) Contoh: Jikahimpunannilaiatributawal v={1, 2, 3}, maka mean(v)=2, sd(v)=1, danhimpunannilaiygdinormalisasikanadalah v* ={-1,0,1}

  35. Data Smoothing • Suatu feature numerik, y, mungkinberkisaratasbanyaknilaiygberbeda, terkadangsebanyakjumlahkasuspelatihan. Banyakteknik data-mining, perbedaan minor antarnilai-nilaiinitidaksignifikandanmungkinmenurunkan performance metodedanhasilakhir. Olehkarenaitu, diaterkadangmenjadikeuntunganuntukmenghaluskannilai variable. • Sebagaicontoh, bilangan real denganbeberapaletakdesimal, pembulatannilaikepresisiygdiberikandapatmenjadialgoritma smoothing ygsederhanauntuksejumlahsampelygbesar, dimanasetiapsampelmempunyanilairealnyasendiri. • Jikadiberikan F = {0.93, 1.01, 1.001, 3.02, 2.99, 5.03, 5.01, 4.98}, kemudian, nilai2 di smooth secaranyatamenjadiFsmoothed = {1.0, 1.0, 1.0, 3.0, 3.0, 5.0, 5.0, 5.0}. • Tujuan : transformasisederhanatanpamenghilangkankualitas data set. • Contoh: diskritisasifiturkontinyumenujufiturnilaibiner true-false

  36. Differences and ratios • Meskipunperubahankecil feature dapatmenghasilkanperbaikan yang signifikandalam performance data-mining. Dampaktransformasidari i/o yg relative minor adalahhalygpentingdalammenspesifikasitujuan data-mining. • Transformasikadangkalamenghasilkanhasilyglebihbagusdaritujualprediksisuatuangkasemula. • Contoh: tujuanmenggerakkan control untukprosesmanufakturpadasuatu setting optimal. Daripadamengoptimisasispesifikasibesaranygnyatauntuk output s(t-1), diaakanlebihefektive men-set tujuangerakanrelatifdarinilaisaatinike optimal akhir s(t+1)-s(t). • Rasioadalahtransformasisederhanaygkedua. Menggunakan s(t-1)/s(t) sebagai output dariproses data-mining, daripadanilainyata s(t+1) ygberarti level peningkatan/ penurunannilaidarisuatu feature ygmungkinmeningkatkan performance dariproses mining keseluruhan.

  37. Transformasiperbedaandanrasiotidakhanyabergunauntukfitur output, tetapijugauntuk input. Merekadapatdigunakansebagaiperubahandalamwaktuuntuksatu feature atausebagaikomposisidariperbedaan feature input. • Contoh: data set medical, ada 2 feature daripasien, tinggidanberat, ygdiambilsebagai parameter input untukanalisisdiagnosaygberbeda. Beberapaaplikasimenunjukkanhasildiagnosadicapailebihbagusketikatransformasiawalditunjukkanmenggunakan feature baruygdisebut body-mass index (BMI), ygmanarasiopembobotanantaraberatdantinggi. Fiturkomposisilebihbaikdari parameter awaluntukmenggambarkanbeberapakarakteristikpasien, misalapakahpasien overweight atautidak.

  38. Transforming Data • Centering • Mengurangisetiap data dengan rata2 darisetiapatribut • Normalization • Hasildari centering dibagidengan standard deviasi • Scaling • Merubah data sehinggaberasadalamskalatertentu

More Related