CLUSTER SAMPLING

PERTEMUAN 4-MPC 2 TEORI CLUSTER SAMPLING Oleh: J. PurwantoRuslam SEKOLAH TINGGI ILMU STATISTIK

Analysis Of Variance (ANOVA) Untuk Cluster Sampling • Anova Untuk Data Populasi Dengandemikian, varianspopulasidapatdinyatakandalambentuk:

Analysis Of Variance (ANOVA) Untuk Cluster Sampling • Anova Untuk Data Sampel Dengandemikian, varianssampeldapatdinyatakandalambentuk:

PerbandinganStratifieddanCluster Sampling Stratified Sampling • Strata bisaberlakusebagai domain estimasi. • Variansdarisuatu estimator tergantungdarivariabilitas di dalam strata. • Penggunaanstratified sampling akanefisienjika: • Variabilitas di dalam strata kecil • Variabilitasantarstratabesar Cluster sampling • Cluster tidakdapatberlakusebagai domain estimasi • Variansdarisuatu estimator tergantungdarivariabilitasantarklaster. • Penggunaancluster sampling akanefisienjika: • Variabilitas di dalamklasterbesar • Variabilitasantarklasterkecil

RATE OF HOMOGENITY (CORRELATION COEFFICIENT INTRACLUSTER)

KoefisienKorelasiIntraklaster • Koefisien korelasiintraklaster (intraclustercoorelation coefficient) menunjukkantingkatkesamaankarakteristikelemen-elemen di dalamklaster. • Dengan kata lain, koefisienkorelasiintraklastermengukurtingkathomogenitas di dalamklaster, sehinggajugabiasadisebutrate of homogenity (roh) • RumuskoefisienkorelasiintraklasterditurunkandariukurankorelasiPearson untukpasangan, yaitu:

KoefisienKorelasiIntraklaster • Berdasarkan tabelAnova, ukurankoefisienkorelasiintraklasterbisadiperolehdengan formula yang lebihsederhanayaitu: • Karenamakanilaiakanberadapada interval: • Jikaelemen di dalam cluster homogensempurnamaka • Jikaelemen di dalam cluster heterogensempurnamaka

KoefisienKorelasiIntraklaster • Koefisienkorelasiintraklasterdapatmenunjukkansampaisejauhmanahubungankarakteristikantara unit-unit dalamklaster. • Makin besarnilaiberartihubunganmakinerat. • Dalampraktekbiasanyakorelasitersebutbesardanpositif. Misalnyakarakteristikkeadaanekonomirumahtangga, usaharumahtanggadansebagainyadalamsuatubloksensuscenderungkuranglebihsama, suatubloksensuscenderungdihunimisalnyaolehrumahtanggagolonganatasataugolonganbawahdansebagainya. • Apabilaklasterterlaluhomogenkarakteristiknyamakapenggunaanklastersatutahaptidakefisien (akandiwakilikarakteristik yang sama). • Olehkarenaitudalampenggunaanklasterlebihcenderunguntukditerapkan sampling bertahap.

HUBUNGAN RATE OF HOMOGENITY DENGAN VARIANCE

Hubungan dengan Sampling Varians • Sampling varianspadaequal cluster sampling dirumuskan: Penjabarandarirumus di atas: Untuk N besarmaka Dari rumus di sampingtampakbahwajikakorelasiintraklasterbesarmakavarians sampling akanbesarsehinggapenggunaan cluster sampling tidakefisien

Hubungan dengan Sampling Varians • Unbiased sampling varians: Untuk n besarmaka

Hubungan denganVariance Between Cluster Mean ( Untuk N besarmaka Unbiased estimasivarians between cluster mean Untuk n besar

Hubungan denganVariance Within Cluster ( Untuk N besarmaka

Hubungan denganVariance Within Cluster ( Unbiased estimasivarians within cluster Untukn besarmaka

Hubungan denganSSTO, SSW, dan SSB Dari hubungandapatdijabarkanmenjadi: Atau

DESIGN EFFECT (DEFF)

Relative Efficiency (RE) Relative Efficiency (RE) Relative efficiencymerupakanperbandinganvariansdariduadesain sampling Jika REmakadesain 1 lebihefisiendaripadadesain 2 Jika REmakadesain 1 samaefisiendaripadadesain 2 Jika REmakadesain2 lebihefisiendaripadadesain1

Design Effect (Deff) Design Effect (Deff) Design Effect merupakanbentukkhususdarirelative eficiency, di manavarianssuatudesain sampling dibandingkandenganvarianssampelacaksederhana (SRS). Jika REmakadesain sampling yang digunakanlebihefisiendaripada SRS Jika REmakadesain sampling yang digunakansamaefisiendaripada SRS Jika REmaka SRS lebihefisiendaripadadesain sampling yang digunakan Design Factor (Deft) Design Factor (Deft) merupakanperbandinganstandar error darisuatudesain sampling denganstandar error sampelacaksederhana (SRS). Dengan kata lain, design factor (deft)merupakanakardaridesign effect (deff).

Design Effect (Deff) Pada Cluster Sampling Design Effect pada cluster sampling merupakanperbandinganantaravarianssuatucluster sampling denganvarianssampelacaksederhana (SRS). Untuk • Jikaelemendalamclusterhomogensempurna: • Maka: • sangattidakefisien • Jikaelemendalamclusterheterogensempurna: • Maka: • sangatefisien

ContohSoal • Seorang manager sirkulasisuratkabaringinmengetahui rata2banyaknyasuratkabar yang dibeliolehrumahtangga di suatukomunitas. Dalamkomunitastersebutterdapat 400 rumahtangga yang terdaftar 40 geographical cluster ygsetiap cluster-nyamemuat 10 ruta. Satugugussampel yang berukuran 4 cluster ditariksecara SRSWOR, dansemuarumahtanggadalam cluster terpilihdiwawancarai, danhasilnyasepertitercantumpadaTabel 1. Berapaestimasi rata2banyaknyasuratkabar yang dibeliolehrumahtanggaberikutstandard error danrelative standar error-nya !

Ilustrasi Keterangan: : rumahtangga Clusterterpilihsampel Clustertidakterpilihsampel

Tabel 1: Jumlahsuratkabar yang dibeliolehrutamenurut cluster

Penyelesaian: • Rata-rata banyaknyakoran yang dibelitiaprumahtangga: • Sampling varians:

Penghitungan Sampling Error denganStata list

PenghitunganSampling Error denganStata . svysetpsu[pweight=weight], fpc(N) vce(linearized) singleunit(missing) pweight: weight VCE: linearized Single unit: missing Strata 1: <one> SU 1: psu FPC 1: N . svy linearized : mean y (running mean on estimation sample) Survey: Mean estimation Number of strata = 1 Number of obs = 40 Number of PSUs = 4 Population size = 400 Design df = 3 Linearized Mean Std. Err. [95% Conf. Interval] y 1,875 ,0897914 1,589244 2,160756 Sampling weight

PenghitunganSampling Error denganStata . estat effect Linearized Mean Std. Err. DEFF DEFT y 1,875 ,0897914 ,31493 ,532388 Note: weights must represent population totals for deff to be correct when using an FPC; however, deft is invariant to the scale of weights. . estatsize Linearized Mean Std. Err. Obs Size y 1,875 ,0897914 40 400 Koefisien korelasiintraklaster: 0,08419 Koefisien korelasiintraklaster yang bernilaikecilinimengindikasikanbahwa unit-unit di dalamklasterheterogen

PenghitunganSampling Error denganStata . oneway y clust_id Analysis of Variance Source SS dfMS F Prob > F Between groups 1,075 3 ,3583 0,30 0,8266 Within groups 43,3 36 1,2027 Total 44,375 39 1,1378 Koefisien korelasiintraklaster: 0,08419 Koefisien korelasiintraklaster yang bernilaikecilinimengindikasikanbahwa unit-unit di dalamklasterheterogen SSB  menunjukkan total variabilitasantarklaster SSTOmenunjukkan total variabilitas SSW menunjukkan total variabilitas unit-unit di dalamklaster

Equal Cluster Sampling UntukProporsi • Misalkandarielemenpada cluster terpilihdapatdikelompokkanmenjadi 2 kategorisehingga : jumlahelemen di cluster ke-i yang termasukdalamkategoritertentu : proporsielemen di cluster ke-i yang termasukdalamkategoritertentu • Misalkan: dari 100 rumahtangga di suatubloksensusterpilihsetelahdilakukanobservasiternyata 36 rumahtanggalantaiterluasnyaadalahtanah, maka: Proporsirumahtangga di bloksensustsb yang lantaiterluasnyatanah:

Equal Cluster Sampling UntukProporsi • Jika sebuah random sampelsebanyak cluster dipilihdaripopulasisebanyak N cluster makaestimasiproporsipopulasi: • Estimator sampling variance untuk adalah

TERIMA KASIH Have A Nice Sampling

CLUSTER SAMPLING