190 likes | 657 Views
Chap 3. 표본조사. 3.1 표본추출 (Sampling) 의 기초 3.2 단순임의표본추출 3.3 표본으로부터 모집단 추정 3.4 신뢰문 (Confidence Statement) 3.5 표본조사의 여러측면. 3.1 표본추출 (Sampling) 의 기초. Terminology in Sampling 추출단위 (Sampling Unit) : 관심의 대상이 되는 집단을 구성하는 각 개체 특성값 (Characteristic) : 추출단위의 특성 을 나타내는 값 변수 (Variable) 라고도 함
E N D
Chap 3. 표본조사 3.1 표본추출(Sampling)의 기초 3.2 단순임의표본추출 3.3 표본으로부터 모집단 추정 3.4 신뢰문(Confidence Statement) 3.5 표본조사의 여러측면
3.1 표본추출(Sampling)의 기초 • Terminology in Sampling • 추출단위(Sampling Unit) : 관심의 대상이 되는 집단을 구성하는 각 개체 • 특성값(Characteristic) : 추출단위의 특성을 나타내는 값 • 변수(Variable)라고도 함 • 모집단(Population) • 모든 추출단위의 특성값을 모아 놓은 것의 모임 • 통계학에서 관심의 대상의 되는 전체 집단 • 유한모집단(Finite Population) : 유한개 추출단위로 구성된 모집단 • 예) 대통령 선거의 지지율에 대한 문제에서 추출단위인 유권자는 유한함 • 무한모집단(Infinite Population) : 무한개 추출단위로 구성된 모집단 • 예) 전 세계 쌀의 수확량 추출단위인 벼의 수는 무한함 • 표본(Sample) • 모집단에서 통계적 분석을 위하여실제로 관측된 특성값들의 모임 IDS Lab, SNU 2008
3.1 표본추출(Sampling)의 기초 • Why Sampling? • Census • 모집단 = Sample : 전수조사 • 시간과 비용의 문제 • 2005년도 인구 및 주택조사 분석결과는 1290억원을 들여 1년 후에 나옴 • 표본추출로 인한 차이(Variation)가 없다? • P.25 1999년도 성남시의 백궁, 정자지구 용도변경에 대한 여론조사93,000명 중 70,000명 찬성. 찬성자 8명 중 1명 만이 찬성한 사실을 기억 • Sampling • 관심의 대상인 모집단의 특성 추측이 목적 • 모집단의 분포와 비슷한 Sampling 추출이 관건 IDS Lab, SNU 2008
3.1 표본추출(Sampling)의 기초 • Bad Sampling • 어떤 Sample이 좋지 않은 Sample인가? • Example • 편의상 Box의 맨 윗줄에서 추출한 귤의 품질 조사 • 오후 4시 이전에 출구조사한 백화점의 고객 만족도 조사 • 근무시간 중에 이루어진 전화면접조사 • Biased Design • 한 쪽으로 치우친 통계적 연구 • Voluntary Response Sample: 응답자의 자의가 반영된 편향된 표본 • Convenience Sample: 조사자의 자의가 반영된 편향된 표본 • Online Survey vs. Street Survey IDS Lab, SNU 2008
3.2 단순임의표본추출 • How to get Good Sample? • 자발적 반응표본과 편의표본: 각각 응답자의 조사자의 선택편향 문제 • 양측 조사 당사자들의 선택성향의 개입을 원초적으로 막아야 함 • 단순임의추출(Simple Random Sampling, 단순랜덤추출)법 • 유한모집단에서 n개의 추출단위로 구성된 모든 부분집합들의 표본으로 선택될 확률이 같도록 설계된 표본추출방법 • 표본의 대표성 확보 목적 • 조사자의 자의와 응답자의 자의를 배제 • 난수표(Random Number Table)를 이용한 단순램덤추출법 • N개 Sampling Unit이 있는 모집단에서 n개의 Sample을 뽑을 때, • 모든 Sampling Unit에 고유번호 부여 [1부터 N까지] • 1~N까지의 수 중에서 n개를 선발 IDS Lab, SNU 2008
모집단크기 N 표본 크기 n 모수 p 통계량 p^ 3.3 표본으로부터 모집단 추정 • 모집단과 표본 • 모수(Parameter) • 모집단의 특성에 관한 수: 평균, 분산, 비율 등 • Constant, Unknown Value • 통계량(Statistic, 통계치) • 표본으로부터 구한 특성값 • 표본에 따라 다르다. • 모수를 추측하는 도구 IDS Lab, SNU 2008
32,625,000명 1000명 부정적 견해를 가진 사람 비율 p p^ =64.4% 3.3 표본으로부터 모집단 추정 • 표본추출분포 • K Research의 “대통령 국정수행 만족도” 여론조사 • 단순임의추출로 1000명의 표본 추출 • 그 중에서 부정적인 견해를 가진 사람의 비율 • 644명/1000 = 64.4% • H Research도 같은 질문으로 동일한 방법의 여론조사 • p^ = 590/1000 = 59.0% • p^ : 통계량은 표본에 따라 값이 다르게 나타난다. 즉, 분포가 있다. • Sampling Variability (표본추출변동) • 같은 모집단에서 동일한 확률적 절차에 의해 추출된 두 표본사이에 존재하는 차이 • Sampling Distribution (표본추출분포, 표본분포) • 확률적 절차에 의해 표본을 많은 횟수 추출하는 경우에 나타나는 통계량의 분포 IDS Lab, SNU 2008
3.3 표본으로부터 모집단 추정 • 표본추출실험 Simulation • 1000개의 임의의 숫자를 읽어 5이하의 숫자들의 비율(p^)을 계산해보자. • 이런 작업을 여러 번 반복하여 각각의 p^을 구한다. <모의실험> • 이 때의 모수 p = 0.6 IDS Lab, SNU 2008
3.3 표본으로부터 모집단 추정 • 표본추출실험 Simulation • p^의 표본분포 • 참 비율인 p=0.6을 중심으로 퍼져있다. • 표본추출변동의 크기가 그다지 크지 않다. • 120개의 표본 중 거의 대부분의 p^는 참비율인 p로부터 ±0.05 이내에 있음 (0.553~0.636) • 단순임의표본으로부터 산출된 표본비율 p^는 어느정도 정밀한 추정값 • p=0.6인 Simulation이 아닌 다른 비율의 경우는? (p=0.5 또는 p=0.7) • 마찬가지로 참 비율인 p=0.5 / p=0.7을 중심으로 퍼져있으며 • 표본추출변동의 크기가 그다지 크지 않다. IDS Lab, SNU 2008
3.3 표본으로부터 모집단 추정 • 낮은 정밀도와 편향 • 만약 표본의 크기를 대폭 줄인다면 표본분포는 어떻게 될까? • 250개의 표본으로부터 p^을 구한 후, 이를 120번 반복하여 표본분포를 구했다. • 1000개 표본으로부터의 p^의 표본분포와 비교 • 모양은 비슷 (참 비율인 p=0.6을 중심으로 퍼져있다) • 분포의 폭이 더 넓어졌다. (0.500~0.675: 편차범위 ±0.1) • 표본의 크기가 작아지면 추정값의 정밀도가 낮아진다. IDS Lab, SNU 2008
3.3 표본으로부터 모집단 추정 • 낮은 정밀도와 편향 • 표본조사를 부실하게 만드는 또 다른 요인은 편향 • 표본조사 결과가 한쪽으로 치우치는 경향 • Ex. 오후 시간대의 전화조사 • 표본의 크기를 아무리 크게한다고 해도 해결되지 않는다. • 분포의 중심점이 p와 일치하지 않는다. (편향이 존재) • 정밀도는 표본의 크기로 높일 수 있으나 편향문제는 표본추출방법 자체에 문제가 있으므로 표본설계를 처음부터 새로 해야 한다. • 모집단의 크기 • 모집단 크기(N)가 표본 크기(n)에 비해 충분히 크다면 통계적 정밀도는 모집단 크기와 무관 IDS Lab, SNU 2008
95%의 표본들 3.4 신뢰문(Confidence Statement) • p^의 표본분포 (Slide 8의표본추출실험) • 대부분 표본들의 p^은 모수(p=0.6)를 중심으로 ±0.05 사이에 존재 • Furthermore… • 0.6 ± 0.025에 표본비율들이 집중적으로 분포 • [0.577,0.630]에서 114개의 표본비율 발견되는데, 이는 120개의 임의표본 중 대략 95%에 해당 • 크기 1000인 임의표본 120개 중 대략 95% p^들은 참 값 p(=0.6)를 중심으로 ± 0.03 이내 범위에 존재 • p의 95% 신뢰구간 • 크기 1000인 표본에서 p^=0.644 라면, • 신뢰도 95%에서 모비율 p는 0.644 ± 0.03 사이에 있는 것으로 추정된다. IDS Lab, SNU 2008
3.4 신뢰문(Confidence Statement) • 신뢰문(Confidence Statement) • 오차한계 (Margin of Error) • 모집단의 참 값과 표본에서 산출되는 통계량과의 차이에 관한 일정 경계값 • 신뢰수준 (Level of Confidence) • 가능한 모든 표본들 중에서 그 한계를 만족시키는 표본들의 비율 • Q&A • 신뢰수준 95%로 모비율(p)가 0.644±0.031 사이에 있다고 할 때, 이는 미지의 p 가 [0.613,0.675]에 있을 확률이 95%라는 말일까? • 왜 꼭 95%인가. 이왕이면 99% 신뢰수준이 낫지 않을까? • 동일한 신뢰수준에서 오차한계를 줄이고 싶다. 어떻게 하면 되는가? 신뢰도 95%에서 모비율 p는 0.644 ± 0.03 사이에 있는 것으로 추정된다. IDS Lab, SNU 2008
3.5 표본조사의 여러측면 • 단순임의추출인 표본조사 • 편향이 없음 • 표본의 크기로 정밀도 제어가 가능 • 오류의 종류 • 표본추출오류 (Sampling Error) • 전수조사(Census)가 아니기 때문에, 표본(Sampling)으로 인하여 발생하는 오류 • 임의표본추출오류 (Random Sampling Error) : 오차한계로 표현 • 잘못된 표본추출로 인한 오류 : 표본설계 부실 • Example. P42 전화조사 • 비표본추출오류 (Nonsampling Error) • 표본추출오류가 아닌 오류: 부실한 응답자료입력/처리, 무응답, 응답자 오류 • 전수조사(Census)에서도 발생 가능 IDS Lab, SNU 2008
3.5 표본조사의 여러측면 • 표본조사 시 유의사항 • 추출단위에 대한 정확하고 완전한 리스트의 작성 • 예) 1936년 미국 대통령선거 Landon VS. Roosevelt • 무응답의 적절한 관리 • 철저한 조사자의 훈련 및 감독 • 정확한 설문지 작성 • 조사결과 수용에 앞서 검토되어야 할 사항들 • P47~48 • Twenty Questions a Journalist Should Ask About Poll Results • Sheldon Gawiser & Evans Witt (저), National Council on Public Polls, USA IDS Lab, SNU 2008