1 / 66

제 7 장

제 7 장. 추 정. 통계적 추론 방법. ∧. Θ. 임의 추출. 모 수 Θ. 통계량. 추론. 점추정. 통계적 추론 (statistical inference) : 표본으로부터 얻은 정보를 이용하여 과학적으로 미지의 모수를 추론하는 과정으로 추정 (estimation) 과 가설검정 (hypothesis testing) 모수 (parameter) : 모집단의 특성을 나타내는 수치. 점추정값. 모수. 추정량.

akasma
Download Presentation

제 7 장

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 제7장 추 정

  2. 통계적 추론 방법 ∧ Θ 임의 추출 모 수 Θ 통계량 추론 점추정 • 통계적 추론(statistical inference) :표본으로부터 얻은 정보를 이용하여 과학적으로 미지의 모수를 추론하는 과정으로 추정(estimation)과 가설검정(hypothesis testing) • 모수(parameter) :모집단의 특성을 나타내는 수치

  3. 점추정값 모수 추정량 • 추정량(estimator) :모수를 추정하기 위하여 사용되는 통계량, 추정량은 X1, X2, … , Xn의 함수인 확률변수 • 점추정(point estimate) :모수에 대한 추정량이 표본추출에 따라 가변적이므로 최적의 추정값을 얻어야 하며, 이러한 최적의 추정값을 구하는 과정

  4. 예를 들어, 모평균 μ를 추정하기 위하여 표본평균 을 이용한다면, 모집단 분포로부터 얻어지는 표본의 관찰값들의 평균으로 모평균을 추정함을 의미

  5. ⊙점추정량의 성질 • 불편성(unbiasedness) 모수 에 대한 점추정량 에 대하여 를 만족할 때, 추정량 를 의 불편추정량(unbiased estimator) 일 때, 를 편의추정량(biased estimator) 를 편의(bias)

  6. S2은 편의 추정량 • 표본평균 는 모평균 μ에 대한 불편추정량이다. • (2) 표본분산S2은 모분산 σ2에 대한 불편추정량이다. • (3) 표본비율 는 모비율 p에 대한 불편추정량이다.

  7. 편의 불편추정량 : 편의추정량 : 미지의 모평균 μ를 가지는 모집단으로부터 크기 3인 확률표본 X1 , X2 , X3 을 추출하여, 모평균에 대한 점추정량을 다음과 같이 정의하였다. 각 추정량의 편의를 구하고 불편추정량과 편의추정량

  8. 2.62 2.69 2.71 2.73 2.66 2.64 2.81 2.78 2.76 2.84 모평균 μ와 모분산 σ2을 갖는 모집단으로부터 크기 10인 확률표본을 다음과 같이 얻었다. 이 표본을 이용하여 모평균과 모분산의 불편추정값 표본평균과 표본분산이 각각 모평균과 모분산의 불편추정량이므로 표본평균과 표본분산을 구한다.

  9. 모수 에 대한 점추정량들 에 대하여 일 때, 추정량 를 의 유효추정량(efficient estimator) 모수 의 유효추정량 : 추정량 의 표준오차(standard error) : • 유효성(efficiency)

  10. 에 비하여 μ에 대한 유효성을 갖는다. 예제 1에서 : μ에 대한 유효추정량 ⊙ 최소분산불편추정량(minimum variance unbiased estimator; MVUE) : 가장 작은 분산을 갖는 불편추정량

  11. 불편추정량 : 유효추정량 : 예제 1의 불편추정량들 중에서 유효추정량 최소분산불편추정량

  12. 평균 μ와 분산 σ2을 갖는 확률변수들 X1, X2, …, Xn에 대하여, • μ에 대한 점추정량 • 을 생각하자. 이때, a1, a2, …, an은 양의 실수이다. • 가 모평균 μ에 대한 불편추정량이 되기 위한 a1, a2, …, an의 조건 • (2) 가 최소분산을 갖기 위한 a1, a2, …, an =? (1) 가 불편성을 갖기 위하여 a1 + a2 + … + an = 1

  13. a2 + a2 2 1 : 최소 : μ에 대한 최소분산불편추정량 (2) 일반성을 잃지 않고, n = 2인 경우를 생각한다. : 최소 : 최소 (1)에 의하여 a1 + a2 = 1 즉, a1 = a2 = ½일 때, a1 , a2 , … , an에 적용하면 a1 = a2 = … = an = 1/n

  14. 일치성(consistency) 모수 θ를 추정하기 위한 크기 n인 표본으로부터 얻은 추정량 에 대하여, 크기 n이 커질수록 가 모수 θ에 근접하는 경우, 즉 임의의 양수 ε에 대하여 을 만족할 때, 추정량 을 모수 θ에 대한 일치추정량(consistent estimator)이라 한다.

  15. Chebyshev 부등식에 의하여 • 이므로 모평균 μ에 대한 일치추정량 모분산 • 이므로 σ2에 대한 일치추정량 모비율 • 이므로 p에 대한 일치추정량

  16. • 서로 다른 기대값과 서로 다른 분산을 가지는 두 점추정량을 비교하는 방법 모수 Θ에 대한 두 점추정량 에 대하여 인 경우 ⊙ 평균제곱오차(mean square error; MSE) 를 이용

  17. (2) 의 분산이 의 분산보다 더 크므로 가 더 폭넓게 나타난다. 모수 Θ에 대한 점추정량 와 가 각각 다음과 같은 정규분포를 이룬다고 하자. (1) 모수 Θ로부터 편의가 작은 점추정량은? (2) 두 점추정량 중에서 어느 것이 더 폭넓게 분포하는가? (3) 어느 점추정량이 모수 Θ에 대한 추정량으로써 바람직한가? (1) 의 편의가 더 작다 (3) 가 모수 Θ에 대한 추정량으로써 바람직하다.

  18. 모평균의 추정 • 구간추정(interval estimation) : 모수 Θ의 참값이 포함되리라고 믿어지는 구간을 추정하는 방법 모수 Θ를 추정하기 위한 두 통계량 : 을 설정 표본의 관찰값 통계량의 관찰값 구간 (l, u) : 모수 Θ에 대한 신뢰수준 1-α의 신뢰구간(confidence interval) 또는 신뢰도(degree of confidence) 100(1-α)%의 신뢰구간

  19. 구간추정에서 95% 신뢰도라 함은 표본으로부터 얻은 신뢰구간이 정확한 모수의 참값을 포함할 확률이 95%임을 나타내는 것이 아니고, 다음 표와 같이 동일한 모집단으로부터 동일한 크기의 표본100개를 임의로 추출하였을 때, 이 표본으로부터 얻은 100개의 신뢰구간들 중에서 95%에 해당하는 95개의 구간이 모평균의 참값을 포함하고 나머지 5%에 해당하는 5개의 구간은 모수의 참값을 포함하지 않음을 의미 μ의 참값을 포함하지 않는 신뢰구간들

  20. 모분산을 아는 경우 : n개를 임의추출 점추정량 : N(μ, σ2 ) σ2 : 기지 에 대한 100(1-α)%오차한계

  21. 에 대한 90%오차한계 : 에 대한 95%오차한계 : 에 대한 99%오차한계 :

  22. 100(1-α)%신뢰구간 : 즉, 100(1-α)%신뢰구간은 점추정값 를 중심으로 임계점 zσ/2와 의 표준오차 의 곱을 반경으로 갖는다. 모분산 σ2을 알고 있을 때, 정규모집단의 모평균 μ에 대한 구간추정량 : 점추정량 를 중심으로 100(1-α)%오차한계를 가지는 두 추정량 L과 U를 선정한다.

  23. 오차한계

  24. 모표준편차가 0.2인 정규모집단에서 10개의 자료를 표본으로 추출하여 • 다음과 같은 결과를 얻었다. • (1) 모평균에 대한 점추정값 • (2) 표준오차를 구하여라. • 에 대한 95% 오차한계 • (4) μ에 대한 95% 신뢰구간 0.27 0.34 0.34 0.36 0.30 0.28 0.41 0.35 0.48 0.43 (1) (2) (3) (4) 95% 신뢰구간 : (0.233, 0.479)

  25. 표본분산 S2으로 대치 n개를 임의추출 점추정량 : N(μ, σ2 ) σ2 : 기지 에 대한 100(1-α)%오차한계 • 모분산을 모르는 경우 :

  26. 에 대한 90%오차한계 : 에 대한 95%오차한계 : 에 대한 99%오차한계 :

  27. 100(1-α)%신뢰구간 : 즉, 100(1-α)%신뢰구간은 점추정값 를 중심으로 임계점tσ/2(n-1)과 의 표준오차 의 곱을 반경으로 갖는다. 모분산 σ2을 모르는 경우, 정규모집단의 모평균 μ에 대한 구간추정량 : 점추정량 를 중심으로 100(1-α)%오차한계를 가지는 두 추정량 L과 U를 선정한다.

  28. 오차한계

  29. 정규모집단 N(μ, σ2)에서 크기 5인 표본을 추출한 결과 [2.9 2.5 3.7 3.0 2.8] • (1) 모평균의 점추정값 • (2) 표준오차 • 에 대한 95% 오차한계 • (4) μ에 대한 95% 신뢰구간 : (1) (2) (3) (4) 95%의 신뢰구간 :

  30. ⊙ 모분산을 모르는 정규모집단으로부터 대단위 표본을 추출하는 경우, 표본평균 는 중심극한정리에 의하여 정규분포에 근사 S2 → σ2으로 수렴하므로 z-추정에 의하여 근사적으로 모평균에 대한 신뢰구간을 구한다. 전국 100세 이상 노인 103명을 대상으로 2002년 10월에 조사된 자료에 의하면, 평균 혈중 콜레스테롤이 174.6㎎/㎗로 나타났다. 만일 이 자료에서 표준편차가 12㎎/㎗으로 나타난다 할 때, 전국 100세 이상 노인의 평균 혈당치에 대한 95% 신뢰구간 95% 신뢰구간 : (172.283, 176.917)

  31. σ2 , σ2 1 2 ▶ 두 모집단의 모분산 을 알고 있는 경우 : 표본평균 : n개 표본평균 : m개 N(μ1, σ2 ) N(μ2, σ2 ) 1 2 • 모평균의 차에 대한 추정 :

  32. 에 대한 100(1-α)%의 오차한계 : 에 대한 90%의 오차한계 : 에 대한 95%의 오차한계 : 에 대한 99%의 오차한계 : 추정분포 표준오차 ▶두 모평균의 차 μ1 -μ2에 대한 점추정량 :

  33. μ1 -μ2에 대한 100(1-α)%신뢰구간 :

  34. 대도시와 중소도시의 무연 휘발유 가격에 차이가 있는지 알아보기 위하여 표본 조사한 결과 : 단위는 1,000원이다. 대도시 표본 : [1.69, 1.79, 1.68, 1.72, 1.66, 1.73, 1.59, 1.78, 1.72, 1.63, 1.55, 1.85] 중소도시 표본 : [1.46, 1.47, .42, 1.51, 1.55, 1.52, 1.48, 1.47, 1.53, 1.50] 이때, 중소도시와 대도시의 휘발유 가격은 각각 독립이고, 모표준편차가 각각 0.03과 0.08인 정규분포를 이룬다는 사실을 알고 있다고 한다. (1) 대도시와 중소도시의 평균 가격의 차에 대한 점추정값 (2) 두 도시의 표본평균의 차에 대한 표준오차 (3) 두 도시의 휘발유 평균가격의 차에 대한 90%, 95% 그리고 99% 신뢰구간 (1) 대도시와 중소도시의 표본평균을 각각 와 라 하면, 점추정값 의 추정값 : (2)

  35. (3) 90% 신뢰구간의 상한과 하한 : 90% 신뢰구간 : (0.1669, 0.2557) 95% 신뢰구간의 상한과 하한 : 95% 신뢰구간 : (0.1584, 0.2642) 99% 신뢰구간의 상한과 하한 : 99% 신뢰구간 : (0.1416, 0.2810)

  36. ▶ 두 모집단의 모분산 이 미지인 경우 : 표본평균 : 표본분산 : n개 N(μ1, σ2 ) 합동표본분산 표본평균 : 표본분산 : N(μ1, σ2 ) 추정분포 : m개 σ2 = σ2 = σ2 1 2 표준오차 : 에 대한 100(1-σ)%오차한계 :

  37. 남학생과 여학생의 몸무게는 각각 동일한 분산을 갖는 정규분포를 이룬다고 한다. 두 그룹에서 각각 4명씩을 임의로 추출하여 조사한 결과 다음과 같은 결과를 얻었다. (1) 두 그룹의 평균 몸무게의 차를 추정 (2) 의 표준오차 (3) 에 대한 90% 오차한계 (4) 남학생과 여학생의 평균 몸무게의 차에 대한 90% 신뢰구간 남학생 64 66 69 72 여학생 46 47 53 53 ▶두 모평균의 차 μ1 – μ2에 대한 점추정량 : 100(1-σ)%신뢰구간 :

  38. (1) 남학생과 여학생 각각의 표본평균 : 평균 몸무게의 차에 대한 추정값 : (2) 두 표본의 표본분산 : 합동표본분산 : 합동표준편차 : 표준오차 : (3) 자유도가 6이므로 에 대한 90% 오차한계 :

  39. (4) 90% 신뢰구간의 하한 : 상한 : 90% 신뢰구간 :

  40. n개 N(μ, σ2 ) 추정분포 : χ2 (n-1) , χ2(n-1)에 대하여 α/2 1-α/2 모분산과 모비율의 추정 • 모분산의 추정 : 표본분산 : S2: 모분산 σ2에 대한 최소분산불편추정량, 일치추정량

  41. σ2에 대한100(1-α)%신뢰구간 : 또는

  42. 정규모집단 N(μ, σ2)에서 크기 5인 표본을 추출한 결과 : [2.9 2.5 3.7 3.0 2.8] (1) 모분산의 점추정값 (2) σ2에 대한 95% 오차한계 (1) 표본평균 : 표본분산 : 모분산에 대한 점추정값 : (2) 95% 신뢰구간 :

  43. 표본비율 : p : 모비율 p에 대한 불편추정량, 일치추정량 ∧ p = X/n ∧ • 모비율의 추정 : n p ≥ 5, n (1-p) ≥ 5이면 X ≈ N (np , np(1-p)) 추정확률분포 : 표준화 :

  44. p : 모비율 p에 대한 불편추정량, 일치추정량 ∧ 표준오차 : 또는 p로 대치함 ∧ 또는

  45. |p – p|에 대한 100(1-α)%오차한계 : ∧ |p – p|에 대한 90%오차한계 : |p – p|에 대한 95%오차한계 : |p – p|에 대한 99%오차한계 : ∧ ∧ ∧ 또는 또는 또는 또는 모비율 p에 대한 100(1-α)%신뢰구간 : 또는

  46. 어느 회사에서 새로 개발된 50나노 디램의 신뢰성을 조사하기 위하여 200개를 임의로 추출하여 2,000시간을 사용하였다. 이때 2,000시간 동안 정상적으로 작동한 램은 195개로 조사되었다고 한다. 이 회사에서 제조된 전체 램을 모집단으로 하여, (1) 이 회사에서 제조된 램이 정상적으로 작동할 비율 p의 추정값 (2) 표본비율 p의 표준오차 (3) |p - p|에 대한 95% 오차한계 (4) 모비율 p에 대한 95% 신뢰구간 ∧ ∧ (1) 200개의 램으로 구성된 표본에서 195개가 정상적으로 작동하였으므로, (2) (3) |p - p|에 대한 95% 오차한계 : ∧

  47. (4) 95% 신뢰구간 : 하한 : 상한 : 95% 신뢰구간 : (0.9534, 0.9966)

  48. 표본비율 : 표본비율 : • 두 모비뮬의 차에 대한 추정 :

  49. 표준화 p : 모비율 p에 대한 불편추정량, 일치추정량 ∧ 추정확률분포 :

More Related